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Introduction to Machine Learning Third Edition 


本 书 把 机 器 学 习 的 热门 话题 ( 如 Tom Mitchell ) 与 概率 论 基础 ( 如 C hristopher Bishop ) 很 好 地 融合 在 一 
起 。 第 3 版 向 这 个 重要 和 迅速 发 展 领域 中 的 学 生 和 研究 者 介绍 了 机 器 学 习 的 一 些 最 新 和 最 重要 的 课题 | 例 
如 ， 请 方法 、 深 度 学 习 和 学 习 排名 ) 


—- John W. Sheppard 过 大 拿 州 六 大 学 计算 机 科学 教授 


我 已 经 在 机 器 学 习 的 研究 生 课程 中 使 用 本 书 多 年 ”这 本 书 很 好 地 平衡 了 理论 和 实践 ， 并 且 在 第 3 版 中 扩 
充 了 许多 新 的 先进 算法 。 我 期 待 在 我 的 下 一 次 机 器 学 习 课 程 中 使 用 它 


一 Larry Holder Pui A CRATE EO 7v. 


对 于 机 器 学 习 而 言 ， 这 是 一 本 完整 、 易 读 的 机 器 学 习 导 论 ， 是 这 个 快速 演变 学 科 的 “瑞士 军刀 ” AR 
入 本 书 旨 在 作为 导论 ， 但 是 它 不 仅 对 于 学 生 ， 而 且 对 于 寻 求 这 一 领域 综合 教程 的 专家 也 是 有 用 的 。 新 人 会 从 
中 找到 清晰 解释 的 概念 ， 专 家 会 从 中 发 现 新 的 参考 和 灵感 


一 Hilario GOmez-Moreno IEEE 高 级 会 员 


机 厂 学 习 的 目标 是 对 计算 机 编程 ， 以 便 使 用 样本 数据 或 以 往 的 经 验 来 解决 给 定 的 问题 。 已 经 有 许多 机 器 学 习 的 
成 功 应 用 ， 包 括 分 析 以 往 销售 数据 来 预测 客户 行为 ， 优化 机 器 人 的 行为 以 便 使 用 最 少 的 资源 来 完成 任务 ， 以 及 从 生 
物 信息 数据 中 提取 知识 的 各 种 系统 。 本 书 是 关于 机 器 学 习 的 内 容 全 面 的 教科 书 ， 其 中 有 些 内 容 在 一 般 的 在 机 器 学 习 
导论 书 中 很 少 介绍 。 主 要 内 容 包 括 监督 学 习 ， 贝 叶 斯 决策 理论 ， 参 数 、 半 参数 和 非 参数 方法 ， 多 元 分 析 ， 隐 马尔 可 
夫 模型 ， 增 强 学 习 ， 核 机 器 ， 图 模型 ， 贝 叶 斯 估计 和 统计 检验 。 

机 瑚 学 习 正 在 迅速 成 为 计算 机 科学 专业 的 学 生 必须 掌握 的 一 门 技能 。 本 书 第 3 版 反映 了 这 种 变化 ， 增加 了 对 初 
学 者 的 支持 ， 包 括 给 出 了 部 分 习题 的 参考 答案 和 补充 了 实例 数据 集 ( 提供 在 线 代码 ) 。 其 他 显著 的 变化 包括 离 群 点 
检测 的 讨论 、 感 知 器 和 支持 向 量 机 的 排名 算法 、 和 矩阵 分 解 和 谐 方法 、 距 离 估计 、 新 的 核算 法 、 多 层 感 知 器 的 深度 学 
习 和 非 参 数 贝 叶 斯 方法 。 书 中 对 所 有 学 习 算 法 都 进行 了 解释 ， 以 便 读者 可 以 很 容易 地 将 书 中 的 公式 转变 为 计算 机 程 
序 。 本 书 可 以 用 作 高 年 级 本 科 生 和 硕士 研究 生 的 教材 ， 也 可 供 研究 机 器 学 习 方 法 的 技术 人 员 参 考 。 
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1. 1 什么 是 机 器 学 习 


这 是 一 个 “大 数据 ?时 代 。 过 去 ， 只 有 公司 才 拥有 数据 。 那 时 ， 有 一 些 计算 中 心 ， 数 据 
在 那里 存储 和 处 理 。 先 是 个 人 计算 机 的 出 现 ， 而 后 是 无 线 通信 的 广泛 使 用 ， 使 得 我 们 都 成 
了 数据 的 生产 者 。 每 当 我 们 购买 一 件 商品 、 租 借 一 部 电影 、 访 问 一 个 网 页 、 书 写 一 个 博客 
或 在 社交 媒体 上 发 帖子 时 ， 甚 至 当 我们 散步 或 开车 闲逛 时 ， 我 们 都 在 产生 数据 。 

我 们 每 个 人 不 仅 是 数据 的 生产 者 ， 而 且 也 是 数据 的 消费 者 。 我 们 想 要 适合 的 产品 和 服 
务 ， 升 望 我 们 的 需要 能 被 理解 ， 我 们 的 兴趣 能 锌 预测 到 。 

以 一 家 连锁 超市 为 例 ， 它 通过 遍布 全 国 的 数 百 家 实体 商店 或 通过 网 上 的 虚拟 商店 癌 数 
百 万 顾客 销售 数 千 种 商品 。 每 笔 交 易 的 细节 ， 包 括 交 易 日 期 、 顾 客 ID、 购 买 的 商品 和 数 
量 、 付 款 金额 等 都 存储 在 计算 机 中 。 这 意味 每 天 都 有 大 量 的 数据 。 连 锁 超 市 布 望 能 够 预测 
哪 位 顾客 可 能 会 购买 哪 种 商品 ， 以 便 能 够 使 销售 和 利润 最 大 化 。 类 似 地 ， 每 位 顾客 都 希望 
找到 最 适合 他 们 需要 的 商品 。 

这 一 任务 并 非 显 而 易 见 。 我 们 并 不 确切 地 知道 哪些 人 比较 倾向 于 购买 这 种 口味 的 冰 激 
次 ,这 位 作家 的 下 一 本 书 是 什么 ， 也 不 知道 谁 言 欢 看 这 部 新 电影 、 访 问 这 座 城市 ， 或 点 击 
这 一 链接 。 顾 客 的 行为 随时 间 和 地 点 而 变化 。 但 是 ， 我 们 知道 这 不 是 完全 随机 的 。 人 们 去 
超市 并 不 是 随机 购买 商品 。 当 他 们 买 啤酒 时 ， 也 会 买 暮 片 ; 夏天 买 冰 激 姿 ， 而 冬天 为 
Glihwein“ 买 香料 。 数 据 中 存在 确定 的 模式 。 

为 了 在 计算 机 上 解决 问题 ,我 们 需要 算法 。 算 法 是 指令 的 序列 ， 它 把 输入 变换 成 输 
出 。 例 如 ， 我 们 可 以 为 排序 设计 一 个 算法 ， 输 入 是 数 的 集合 ， 而 输出 是 它们 的 有 序列 表 。 
对 于 相同 的 任务 ， 可 能 存在 不 同 的 算法 ， 而 我 们 感 兴趣 的 是 找到 需要 的 指令 、 内 存 最 少 ， 
或 者 二 者 都 最 少 的 最 有 效 算 法 。 

然而 ， 对 于 某 些 任务 ， 我们 没有 算法 。 预 测 顾客 的 行为 就 是 一 个 例子 ,为 一 个 例子 是 
区 分 垃圾 邮件 和 正常 邮件 。 我 们 知道 输入 是 邮件 文档 ， 在 最 简单 的 情况 下 是 一 个 字符 文 
件 。 我 们 还 知道 输出 应 该 是 指出 消息 是 否 为 垃圾 邮件 的 “是 ”或 “ 否 ”。 但 是 我 们 不 知道 如 何 
把 这 种 输入 变换 成 输出 。 所 谓 的 垃圾 邮件 随时 间 而 变 ， 因 人 而 异 。 

我 们 缺乏 的 是 知识 ， 作 为 补偿 我 们 有 数据 。 我 们 可 以 很 容易 地 编辑 数 以 千 计 的 实例 消 
息 ， 其 中 一 些 我 们 知道 是 垃圾 邮件 ， 而 我 们 要 做 的 是 硕 望 从 中 "学 习 " 垃 圾 邮件 的 结构 。 换 
言 之 ， 我 们 和 希望 计算 机 (机 器 ) 上 自动 地 为 这 一 任务 提取 算法 。 不 需要 学 习 如 何 将 数 排序 ， 因 
为 我 们 已 经 有 这 样 的 算法 。 但 是 ， 对 于 许多 应 用 而 言 ， 我 们 确实 没有 算法 ， 而 是 有 实例 
数据 。 

我 们 也 许 不 能 够 完全 识别 该 过 程 ， 但 是 我 们 相信 ， 我 们 能 够 构造 一 个 好 的 并 且 有 用 的 
近似 。 尽 管 这 样 的 近似 还 不 可 能 解释 一 切 ， 但 其 仍然 可 以 解释 数据 的 某 些 部 分 。 我 们 相 
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言 ， 尽 管 识别 整个 过 程 也 许 是 不 可 能 的 ， 但 是 我 们 仍然 能 够 发 现 某 些 模式 或 规律 。 这 正 是 
机 需 学 习 的 定位 。 这 些 模式 可 以 帮助 我 们 理解 该 过 程 ， 或 者 我 们 可 以 使 用 这 些 模 式 进 行 预 
wW: 假定 将 来 (至 少 是 不 远 的 将 来 ) 情 况 不 会 与 收集 样本 数据 时 有 很 大 的 不 同 ， 则 未 来 的 预 
测 也 将 有 望 是 正确 的 。 

机 天 学 习 方 法 在 大 型 数据 库 中 的 应 用 称 为 数据 挖掘 (data mining)。 类 似 的 情况 如 大 量 
的 金属 氧化 物 以 及 原料 从 矿山 中 开采 出 来 ， 处 理 后 产生 少量 非常 珍贵 的 物质 。 类 似 地 ， 在 
数据 控 据 中 ， 需 要 处 理 大 量 的 数据 以 构建 有 使 用 价值 的 简单 模型 ， 例 如 具有 高 准确 率 的 预 
测 模型 。 数 据 挖掘 的 应 用 领域 非常 广泛 : 除 零 售 业 以 外 ， 在 金融 业 ， 银 行 分 析 历 史 数据 ， 
构建 用 于 信用 分 析 、 诈 骗 检 测 、 股 票 市 场 等 方面 的 应 用 模型 ; 在 制造 业 ， 学 习 模 型 可 以 用 
于 优化 、 控 制 以 及 故障 检测 等 ; 在 医学 领域 ,学习 程 序 可 以 用 于 医疗 诊断 等 ; 在 电信 和 领 
域 ， 通 话 模式 的 分 析 可 用 于 网 络 优 化 和 提高 服务 质量 ; 在 科学 研究 领域 ， 比 如 物理 学 、 天 
文学 以 及 生物 学 的 大 量 数据 只 有 使 用 计算 机 才 可 能 得 到 足够 快 的 分 析 。 万 维 网 是 巨大 的 ， 
并 且 在 不 断 增 长 ， 因 此 在 万 维 网 上 检索 相关 信息 不 可 能 依靠 人 工 完成 。 

然而 ， 机 融 学 习 不 仅仅 是 数据 库 方面 的 问题 ， 它 也 是 人 工 智能 的 组 成 部 分 。 为 了 智能 
化 ， 处 于 变化 环境 中 的 系统 必须 具备 学 习 能 力 。 如 果 系 统 能 够 学 习 并 且 适 应 这 些 变 化 ， 那 
么 系统 的 设计 者 就 不 必 预 见 所 有 的 情况 并 为 它们 提供 解决 方案 了 。 

机 器 学 习 还 可 以 帮助 我 们 解决 视觉 、 语 音 识 别 以 及 机 器 人 方面 的 许多 问题 。 以 人 脸 识 
别 问题 为 例 。 我 们 做 这 件 事 毫 不 费力 。 即 使 姿势 、 光 线 、 发 型 等 不 同 ， 我 们 每 天 还 是 可 以 
通过 观察 真实 的 面孔 或 照片 来 认 出 家 人 和 朋友 。 但 是 我 们 做 这 件 事 是 无 意识 的 ， 而 且 无 法 
解释 我 们 是 如 何 做 的 。 因 为 我 们 不 能 够 解释 我 们 所 具备 的 这 种 技能 ， 所 以 我 们 也 就 不 可 能 
编写 相应 的 计算 机 程序 。 但 是 我 们 知道 ， 脸 部 图 像 并 非 只 是 像素 点 的 随机 组 合 ， 人 脸 是 有 
结构 的 、 对 称 的 。 脸 上 有 眼睛、 鼻子 和 嘴巴 ， 并 且 它 们 都 位 于 脸 的 特定 部 位 。 每 个 人 的 脸 
都 有 各 上 自 的 眼睛 、 鼻 子 和 嘴巴 的 特定 组 合 模式 。 通 过 分 析 一 个 人 的 脸 部 图 像 的 多 个 样本 ， 
学 习 程序 可 以 捕捉 到 那个 人 特有 的 模式 ， 然 后 在 所 给 的 图 像 中 检测 这 种 模式 ， 从 而 进行 辩 
认 。 这 就 是 模式 识别 (pattern recognition) 的 一 个 例子 。 

机 器 学 习 使 用 实例 数据 或 过 去 的 经 验 训 练 计算 机 来 优化 某 种 性 能 标准 。 我 们 有 依赖 于 
某 些 参 数 的 模型 ， 而 学 习 就 是 执行 计算 机 程序 ， 利用 训练 数据 或 以 往 经 验 来 优化 该 模型 的 
参数 。 模 型 可 以 是 预测 性 的 (predictive) ， 用 于 未 来 的 预测 ， 或 者 是 描述 性 的 (descriptive) ， 用 
于 从 数据 中 获取 知识 ; 也 可 以 二 者 兼备 。 

机 器 学 习 在 构建 数学 模型 时 利用 了 统计 学 理论 ， 因 为 其 核心 任务 就 是 由 样本 推理 。 计 
算 机 科学 的 角色 是 双重 的 : 第 一 ， 在 训练 时 ， 我 们 需要 求解 优化 问题 以 及 存储 和 处 理 通常 
所 面 对 的 海量 数据 的 高 效 算法 。 第 二 ,一 旦 学 习 得 到 了 一 个 模型 ， 它 的 表示 和 用 于 推理 的 
算法 解 也 必须 是 高 效 的 。 在 特定 的 应 用 中 ， 学 习 或 推理 算法 的 效率 ， 即 它 的 空间 复杂 度 和 
时 间 复 杂 度 ， 可 能 与 其 预测 的 准确 率 同 样 重 要 。 

现在 ， 让 我 们 更 详细 地 讨论 一 些 应 用 领域 的 例子 ， 以 便 进一步 深入 了 解 机 器 学 习 的 类 
型 和 用 途 。 


1.2 机 器 学 习 的 应 用 实例 
1.2.1 学 习 关 联 性 


在 零售 业 ， 例 如 超市 连锁 店 ， 机 需 学 习 的 一 个 应 用 是 购物 篮 分 析 (basket analysis), 
它 的 任务 是 发 现 顾客 所 购 商 品 之 间 的 关联 性 : 如 果 购 买 商品 X 的 人 通常 也 购买 商品 Y， 而 
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一 位 顾客 购买 了 商品 XX 却 未 购买 商品 Y， 则 他 就 是 商品 Y 的 潜在 顾客 。 一 旦 我 们 发 现 这 类 
顾客 ， 我 们 就 能 针对 他 们 实施 交叉 销售 策略 。 

为 了 发 现 关联 规则 (association rule) ， 我 们 对 学 习 形 如 PCY |X) 的 条 件 概 率 感 兴趣 ， 
Ep X 是 我 们 知道 的 顾客 已 经 购买 的 商品 或 商品 集 ，Y 表示 在 条 件 X 下 可 能 购买 的 商品 。 
假定 考察 已 有 的 数据 ， 计 算得 到 PCchips| beer) 王 0.7， 那 么 我 们 就 可 以 定义 规则 : 
购买 啤酒 (beer) 的 顾客 中 有 70% 的 人 也 买 了 暮 片 (chip) 

我 们 也 许 想 要 区 分 不 同 的 顾客 。 针 对 这 个 问题 ， 我 们 需要 估计 PCY|X，D)， 其 中 D 是 顾 
客 的 一 组 属性 ， 如 性 别 、 年 龄 、 婚 姻 状 况 等 ， 这 里 假定 我 们 已 经 得 到 了 这 些 属性 信息 。 如 
果 考 虑 书店 而 不 是 超市 销售 问题 ， 商 品 就 可 能 是 书 或 作者 等 。 对 于 Web 门户 网 站 入 口 问 
题 ， 商 品 对 应 于 到 Web 网 页 的 链接 ， 而 我 们 可 以 估计 用 户 可 能 点 击 的 链接 ， 并 利用 这 些 
信息 预先 下 载 这 些 网 页 ， 以 便 取 得 更 快 的 网 页 访问 速度 。 


1.2.2 分 类 


言 贷 是 金融 机 构 ( 例 如 银行 ) 什 出 的 一 笔 钱 ， 需 要 连 本 带 息 偿还 ， 通 常 分 期 偿还 。 对 银 
行 来 说 ， 重 要 的 是 能 够 提前 预测 贷款 风险 。 这 种 风险 是 客户 不 履行 义务 和 不 全 和 额 还 款 的 可 
能 性 。 既 要 确保 银行 获 利 ， 又 要 确保 不 会 因 提供 超出 客户 财力 的 贷款 而 给 客户 带 来 不 便 。 

在 资信 评分 (credit scoring) Hand 1998) 中 ， 银 行 计算 在 给 定 信 贷 额度 和 客户 信息 情 
况 下 的 风险 。 客 户 信息 包括 我 们 已 经 获取 的 数据 以 及 与 计算 客户 财力 相关 的 数据 ， 即 收 
入 、 存 款 、 担 保 、 职 业 、 年 龄 、 以 往 经 济 记 录 等 。 银 行 有 以 往 贷款 的 记录 ， 包 括 客户 数据 
以 及 贷款 是 否 偿还 。 通 过 这 类 特定 的 申请 数据 ， 可 以 推断 出 表示 客户 属性 及 其 风险 关联 性 
的 一 般 规 则 。 也 就 是 说 ， 机 器 学 习 系 统 用 一 个 模型 来 拟 合 过 去 的 数据 ， 以 使 能 够 对 新 的 申 
请 计算 风险 ， 从 而 决定 接受 或 拒绝 该 项 申请 。 

这 是 分 类 (classification) 问 题 的 一 个 例子 ， 这 里 有 两 个 类 : 低 风 险 客 户 和 高 风险 客户 。 
客户 信息 作为 分 类 器 的 输入 (input)， 分 存款 
类 器 的 任务 是 将 输入 指派 到 其 中 的 一 
个 类 。 

利用 以 往 数据 进行 训练 后 ， 学 习 得 到 
的 规则 可 能 具有 如 下 形式 : 

IF income > 0; AND savings > 6, 

THEN low-risk ELSE high-risk 
其 中 9, 和 0, 是 合适 的 值 (参见 图 1-1), 3X 0, 
T X) 3 A (discriminant) 的 一 个 例子 ， 判 
别 式 是 将 不 同类 的 样本 分 开 的 函数 。 

有 了 这 样 的 规则 ， 主 要 用 途 就 是 预测 
(prediction): 一 旦 我 们 拥有 拟 合 以 往 数 





据 的 规则 ， 如 果 未 来 与 过 去 类 似 ， 那 么 我 0, 收入 
们 就 能 够 对 新 的 实例 做 出 正确 的 预测 。 如 图 1-1 训练 数据 集 例 子 ， 其 中 每 个 圆圈 对 应 于 一 个 
果 给 定 一 个 具有 特定 收入 (income) 和 存款 数据 实例 ， 输入 值 在 对 应 的 坐标 上 ， 符号 指 
(savings) 的 新 申请 ， 则 我 们 就 可 以 容易 示 类 别 。 为 了 简单 起 见 ， 输 入 只 包括 客户 的 


: —— 收入 和 存款 两 种 属性 ， 两 个 类 分 别 为 低 风险 
地 判断 出 它 是 低 风险 (low-risk) 还 是 高 风 eee ec. lanipa prti 


K (high-risk), 两 类 样本 的 判别 式 的 例子 


_* st 第 1 音 


在 某 些 情况 下 ， 我 们 可 能 不 是 希望 做 0/1( 低 风险 /高 风险 ) 类 型 的 判断 ， 而 是 希望 计算 
一 个 概率 值 PICY|X)， 其 中 X 是 顾客 属性 ，Y 是 0 或 1， 分 别 表示 低 风 险 和 高 风险 。 从 这 
个 角度 来 看 ， 我 们 可 以 将 分 类 看 作 学 习 从 X $8] Y 的 关联 性 。 于 是 ， 给 定 X= 二 x， 如 果 有 
PCY 王 1|X=z) 王 0.8， 则 我 们 就 说 该 客户 为 高 风险 的 可 能 性 有 80%, 或 者 等 价 地 说 ， 该 
客户 为 低 风 险 的 可 能 性 有 20%。 然 后 ， 我 们 可 以 根据 可 能 的 收益 和 损失 来 决定 接受 还 是 拒 
绝 这 笔 贷款 业务 。 

机 器 学 习 在 模式 识别 (pattern recognition) 方 面 有 很 多 应 用 。 其 中 之 一 是 光学 字符 识别 
(Optical Character Recognition, OCRO, ， 即 从 字符 图 像 识 别 字 符 编 码 。 这 是 多 类 问题 的 一 
个 例子 ， 类 与 我 们 想 要 识别 的 字符 一 样 多 。 特 别 有 趣 的 是 手写 体 字 符 的 识别 问题 。 人 们 有 
不 同 的 书写 风格 ， 字 体 有 大 有 小 ， 倾 斜 角度 不 同 ， 还 有 用 钢笔 或 用 铅笔 之 别 ， 所 以 同一 个 
字符 可 能 会 有 许多 种 可 能 的 图 像 。 尽 管 书写 是 人 类 的 发 明 创 造 ， 但 是 还 没有 像 人 类 读者 一 
样 准 确 的 系统 。 我 们 没有 字符 “A” 的 形式 化 描述 ， 涵 盖 所 有 “A” 而 不 涵盖 任何 非 A”. 
有 这 种 形式 化 描述 ， 我 们 就 要 从 书写 者 那里 取样 ， 从 这 些 实例 中 学 习 关 于 “A” 的 定义 。 然 
而 ， 人 尽管 我 们 不 知道 是 什么 因素 使 得 一 个 图 像 被 识别 为 A”, 但 是 我 们 确信 所 有 这 些 不 同 
的 “A” 的 图 像 都 具有 某 些 共同 的 特征 ， 这 正 是 我 们 希望 从 实例 中 提取 的 。 我 们 知道 ,字符 
图 像 不 只 是 随机 点 的 集合 。 它 是 笔画 的 集合 ， 并 且 是 有 规律 的 ， 通 过 学 习 程 序 我 们 能 够 捕 
获 这 些 规律 。 

阅读 文本 时 ， 我 们 能 够 利用 的 一 个 因素 是 人 类 语言 的 元 余 性 。 词 是 字符 的 序列 ， 并 且 
相继 的 符号 不 是 独立 的 ， 而 是 被 语言 的 词 所 约束 。 这 有 好 处 ， 即 便 有 一 个 符号 不 能 识别 ， 
我 们 仍 可 以 读 出 词 t?e° 。 根 据 语言 的 语法 和 语义 ， 这 种 上 下 文 的 依赖 性 还 可 能 出 现在 词 和 
句子 之 间 等 较 高 的 层次 上 。 目 前 存在 用 于 学 习 序 列 和 对 这 种 依赖 性 建 模 的 机 器 学 习 算 法 。 

对 于 人 脸 识 别 (face recognition) ， 输 入 是 人 脸 图 像 ， 而 类 是 需要 识别 的 人 人， 并且 学 习 
程序 应 当 学 习 人 脸 图 像 与 身份 之 间 的 关联 性 。 这 个 问题 比 光 学 字符 识别 更 困难 ， 因 为 人 脸 
会 有 更 多 的 类 ， 输 入 图 像 也 更 大 一 些 ， 并 且 人 脸 是 三 维 的 ， 不 同 的 姿势 和 光线 等 都 会 导致 
图 像 的 显著 变化 。 另 外 ， 对 于 特定 人 脸 的 输入 也 会 出 现 问题 ， 比 如 说 眼镜 可 能 会 把 眼睛 和 
眉毛 遮 住 ， 胡 子 可 能 会 把 下 巴 盖 住 等 。 

在 医学 诊断 (medical diagnosis) 中 ， 输 入 是 关于 患者 的 信息 ， 而 类 是 疾病 。 输 入 包括 
患者 的 年 龄 、 性 别 、 既 往 病史 、 目 前 症状 等 。 当 然 ， 患 者 可 能 还 没有 做 过 某 些 检查 ， 因 此 
这 些 输入 将 会 缺失 。 检 查 需要 时 间 ， 还 可 能 要 花 很 多 钱 ， 而 且 也 许 还 会 给 患者 带 来 不 便 。 
因此 ， 除 非 我 们 确信 检查 将 提供 有 价值 的 信息 ， 和 否则 我 们 不 对 患者 进行 检查 。 在 医学 诊断 
的 情况 下 ， 错 误 的 诊断 结果 可 能 会 导致 错误 的 治疗 或 根本 不 治疗 。 在 不 能 确信 诊断 结果 的 
情况 下 ， 分 类 器 最 好 还 是 放弃 判定 ， 而 等 待 医 学 专家 来 决断 。 

在 语音 识别 (Speech recognition) 中 ， 输 入 是 语音 ， 类 是 可 以 读 出 的 词汇 。 这 里 要 学 习 的 
是 从 语音 信号 到 某 种 语言 的 词汇 的 关联 性 。 由 于 年 龄 、 性 别 或 口音 方面 的 差异 ， 不同 的 人 对 
于 相同 词汇 的 读音 不 同 ， 这 使 得 语音 识别 相当 困难 。 语 音 识 别 的 男 一 个 特点 是 其 输入 信号 是 
时 态 的 (temporal)， 词 汇 作为 音素 的 序列 实时 读 出 ， 而 且 有 些 词汇 的 读音 会 比 其 他 词汇 长 
— BE 

语音 信息 的 作用 有 限 ， 并 且 与 光学 字符 识别 一 样 ， 在 语音 识别 中 ,“ 语 言 模型 "的 集成 
是 至 关 重 要 的 ， 而 且 提 供 语言 模型 的 最 好 方法 仍然 是 从 实例 数据 的 大 型 语料库 中 学 习 。 机 


O 这 里 ,，“?” 表 示 不 能 识别 的 符号 。 一 一 译 者 注 
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器 学 习 在 自然 语言 处 理 (natural language processing) 方 面 的 应 用 与 日 俱 增 。 垃 圾 邮件 过 波 
就 是 一 种 应 用 ， 那 里 垃圾 邮件 的 制造 者 为 一 方 ， 过 滤 者 为 另 一 方 ， 它 一 直 都 在 寻找 越 来 越 
精巧 的 方法 来 超越 对 方 。 大 型 文档 汇总 是 男 一 个 有 趣 的 例子 ; 还 有 一 个 例子 是 分 析 博 客 或 
社交 网 站 上 的 帖子 ， 以 便 提取 “流行 ”主题 或 决定 和 补 什 么 广告 。 也 许 最 吸引 人 的 是 机 器 翻译 
(machine translation) 。 经 历 了 数 十 年 手工 编写 翻译 规则 的 研究 之 后 ， 最 近 人 们 认识 到 最 
有 和 希望 的 方法 是 提供 大 量 两 种 语言 文本 的 实例 对 ， 让 程序 自动 地 揣摩 把 一 种 语言 映射 到 另 
一 种 语言 的 规则 。 

生物 测定 学 (biometrics) 使 用 人 的 生理 和 行为 特征 来 识别 或 认证 人 的 身份 ， 它 需要 集 
成 来 自 不 同形 态 的 输入 。 生 理 特征 的 例子 有 面部 图 像 、 指 纹 、 虹 膜 和 手掌 ; 行为 特征 的 例 
子 有 签字 的 力度 、 嗓 音 、 步 态 和 击 键 。 与 通常 的 鉴别 过 程 ( 照 片 、 印 刷 签名 或 口令 ) 相 反 ， 
会 有 许多 不 同 的 (不 相关 的 ) 输 入 ， 伪造 (欺骗 ) 更 困难 ， 并 且 系 统 更 准确 ， 有 望 不 会 对 用 户 
太 不 方便 。 机 器 学 习 既 用 于 对 这 些 不 同形 态 构建 不 同 的 识别 器 ， 也 考虑 这 些 不 同 数据 源 的 
可 靠 性 ， 用 于 组 合 它 们 的 决策 ， 以 便 得 到 接受 或 拒绝 的 总 体 决断 。 

从 数据 中 学 习 规 则 也 为 知识 抽取 (knowledge extraction) 提 供 了 可 能 性 。 规 则 是 一 种 解 
释 数 据 的 简单 模型 ， 而 观察 该 模型 我 们 就 能 得 到 潜在 数据 处 理 的 解释 。 例 如 ， 一 旦 我 们 学 
习 得 到 区 分 低 风 险 客 户 和 高 风险 客户 的 判别 式 ， 我 们 就 拥有 了 关于 低 风 险 客 户 特 性 的 知 
识 。 然 后 ， 我 们 就 能 够 利用 这 些 信息 ， 通 过 广告 等 方式 ， 更 有 效 地 争取 那些 潜在 的 低 风 险 
客户 。 机 器 学 习 还 可 以 进行 压缩 (compression)。 用 规则 拟 合 数据 ， 我 们 得 到 比 数据 更 简 
单 的 解释 ， 需 要 的 存储 空间 更 少 ， 处 理 所 需 要 的 计算 更 少 。 例 如, 一旦 掌握 了 加 法 规则 ， 
就 不 必 记 忆 每 对 可 能 数 的 和 是 多 少 ， 

机 器 学 习 的 男 一 种 用 途 是 离 群 点 检测 (outlier detection), ， 即 发 现 那些 不 遵守 规则 和 例 
外 的 实例 。 基 本 思想 是 ， 典型 的 实例 具有 一 些 可 以 简单 陈述 的 特征 ， 而 不 具备 这 些 特征 的 
实例 都 是 非典 型 的 。 在 这 种 情况 下 ， 我 们 感 兴趣 的 是 找到 一 个 尽 可 能 简单 并 且 覆 盖 尽 可 能 
多 的 典型 实例 的 规则 。 落 在 外 面 的 实例 都 是 例外 ， 它 们 可 能 是 提示 我 们 需要 注意 的 异常 
(如 诈骗 )， 也 可 能 是 新 颖 的 、 先 前 未 曾 见 过 但 又 合理 的 情况 。 因 此 ， 离 群 点 检测 又 称 为 新 
颖 性 检测 (novelty detection). 


1.2.3 回归 


假设 我 们 想 要 一 个 能 够 预测 二 手 车 价格 的 系统 。 该 系统 的 输入 是 我 们 认为 会 影响 车 价 
的 属性 信息 : 品牌 、 车 龄 、 发 动机 排 量 、 里 程 以 及 其 他 信息 。 输 出 是 车 的 价格 。 这 种 输出 
为 数值 的 问题 是 回归 (regression) 问题 。 

设 X 表示 车 的 属性 ，Y 表示 车 的 价格 。 调 查 以 往 的 交易 情况 ， 我们 能 够 收集 训练 数 
据 ， 而 机 器 学 习 程序 用 一 个 函数 拟 合 这 些 数 据 来 学 习 X 的 函数 Y。 图 1-2 给 出 了 一 个 例 
子 ， 其 中 对 于 w 和 ww, 的 合适 值 ， 拟 合 函 数 具 有 以 下 形式 : 

y-—wzr-dw, 

回归 和 分 类 均 为 监督 学 习 (supervised learning) 问 题 ， 其 中 给 定 输入 X 和 输出 Y， 任 

务 是 学 习 从 输入 到 输出 的 映射 。 机 器 学 习 的 方法 是 ， 先 假定 依赖 于 一 组 参数 的 模型 ; 
y-—gCG |0) 

其 中 ，g(。) 是 模型 ， 而 0 是 模型 的 参数 。 对 于 回归 ，Y 是 数值 ， 对 于 分 类 ，Y 是 类 编码 

(如 0/1)。g(。*) 为 回归 函数 ， 或 者 (对 于 分 类 ) 是 将 不 同类 的 实例 分 开 的 判别 式 函 数 。 机 

器 学 习 程 序 优化 参数 9， 使 近似 误差 最 小 ， 也 就 是 说 ， 我 们 的 估计 要 尽 可 能 地 接近 训练 集 
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中 给 定 的 正确 值 。 例 如 ， 图 1-2 所 示 的 模型 是 线性 的 ，w 和 是 为 最 佳 拟 合 训练 数据 优化 
后 的 参数 。 在 线性 模型 限制 过 强 的 情况 下 ， 我 们 可 以 利用 二 次 函数 


sla ae 
yu, £^" TW, Sw, 


价格 


x: 里 程 
1-2 ”二手 车 的 训练 数据 及 其 拟 合 函数 。 为 简单 起 见 ， 这 里 采用 线性 模型 ， 输 入 属性 也 只 有 里 程 


或 更 高 阶 的 多 项 式 ， 或 其 他 非 线 性 函数 ， 为 最 佳 拟 合 优化 它们 的 参数 。 
回归 的 另 一 个 例子 是 移动 机 器 人 导航 ， 例 如 ， 上 自动 汽车 导航 ， 其 中 输出 是 每 次 转动 车 
) | 轮 的 角度 ， 使 汽车 前 进而 不 会 撞 到 障碍 物 或 偏离 车 道 。 在 这 种 情况 下 ， 输 入 由 汽车 上 的 传 
10] 感 器 (如 视频 相机 、GPS 等 ) 提 供 。 训 练 数据 可 以 通过 监视 和 记录 驾驶 员 的 动作 来 收集 。 
我 们 可 以 想象 回归 的 其 他 应 用 ， 这 里 我 们 试图 优化 一 个 函数 ” 。 假 设 我 们 想 要 制造 一 个 
焙 炒 咖啡 的 机 需 。 该 机 需 有 多 个 影响 咖啡 品质 的 输入 : 温度、 时间、 咖啡 豆 种 类 等 。 我 们 针对 
不 同 的 输入 配置 进行 大 量 试验 ， 并 估量 咖啡 的 品质 。 例 如 ， 根 据 消 费 者 的 满意 度 测 量 咖啡 的 品 
质 。 为 找到 最 优 配置 ， 我 们 拟 合 一 个 联系 这 些 输入 和 咖啡 品质 的 回归 模型 ， 并 在 当前 模型 的 最 
优 样 本 附近 选择 一 些 新 的 点 ， 以 便 寻 找 更 好 的 配置 。 我 们 抽取 这 些 点 ， 检 测 咖啡 的 品质 ， 将 它 
们 加 入 训练 数据 ， 并 拟 合 新 的 模型 。 这 通常 称 为 响应 面 设计 (response surface design) 。 
有 时 ,我们 希望 能 够 学 习 一 个 相对 位 置 ， 而 不 是 估计 一 个 绝对 数值 。 例 如 ， 在 电影 推 
# f % (recommendation system) 中 ， 我 们 希望 产生 一 张 表 ， 按 照 用 户 的 喜 欢 程度 将 电影 
排序 。 根 据 电 影 的 体裁 、 演 员 等 属性 ， 并 使 用 用 户 对 他 们 所 看 过 电影 的 评级 ,我们 希望 能 
够 学 习 一 个 排名 (ranking) 函 数 ， 然 后 可 以 使 用 它 选择 新 电影 。 


1.2.4 非 监 督学 习 
在 监督 学 习 中 ， 我 们 的 目标 是 学 习 从 输入 到 输出 的 映射 关系 ， 其 中 输出 的 正确 值 已 经 


CO Rist Michael Jordon 提供 这 个 例子 。 


5] 


wuh 


由 指导 者 提供 。 然 而 ， 在 非 监督 学 习 中 却 没有 这 样 的 指导 者 ， 只 有 输入 数据 。 我 们 的 目标 
是 发 现 输入 数据 中 的 规律 。 输 入 空间 存在 着 某 种 结构 ， 使 得 特定 的 模式 比 其 他 模式 更 常 出 
现 ， 而 我 们 希望 知道 哪些 经 和 常 发 生 ， BERR RAE 在 统计 学 中 ， 这 称 为 密度 估计 
(density estimation) 。 

密度 估计 的 一 种 方法 是 聚 类 (clustering)， 其 目标 是 发 现 输入 数据 的 簇 或 分 组 。 对 于 拥 
有 老 客户 数据 的 公司 ， 客户 数据 包括 客户 的 个 人 统计 信息 及 其 以 前 与 公司 的 交易 ， 而 公司 
也 许 想 知道 其 客户 的 分 布 ， 搞 清楚 什么 类 型 的 客户 会 频繁 出 现 。 这 种 情况 下 ， 聚 类 模型 会 
将 属性 相似 的 客户 分 派 到 相同 的 分 组 ， 为 公司 提供 其 客户 的 自然 分 组 ， 这 称 作 客户 划分 
(customer segmentation)。 一 旦 找 出 了 这 样 的 分 组 ， 公司 也 许 会 做 出 一 些 决 策 ， 比 如 对 不 
同 分 组 的 客户 提供 特别 的 服务 和 产品 等 ， 这 称 作 客户 关系 管理 (customer relationship man- 
agement)。 这 样 的 分 组 也 可 以 用 于 识别 “ 离 群 点 ”， 即 那些 不 同 于 其 他 客户 的 客户 ， 这 可 能 
意味 新 的 市 场 商机 ， 公 司 可 以 进一步 开发 。 

聚 类 的 一 个 有 趣 的 应 用 是 图 像 压 缩 (image compression) 。 在 这 种 情况 下 ， 输 入 实例 是 
由 RGB 值 表示 的 图 像 像 素 。 聚 类 程序 将 颜色 近似 的 像素 分 到 相同 的 分 组 ， 而 这 样 的 分 组 
对 应 于 图 像 中 频繁 出 现 的 颜色 。 如 果 图 像 中 只 有 少数 几 种 颜色 ， 并 且 属 于 同一 分 组 的 像素 
用 一 种 颜色 (例如 ， 颜 色 的 平均 值 ) 进 行 编码 ， 则 图 像 被 量化 。 假 设 像素 是 24 位 ， 表 示 
1600 万 种 颜色 ， 但 是 如 果 只 有 64 种 主 色调 ,那么 对 于 每 个 像素 ， 只 需要 6 位 而 不 是 24 
人 位。 例如， 如果 景 象 在 图 像 的 不 同 部 分 有 多 种 不 同 的 蓝 色 色调 ,并 且 采 用 它们 的 平均 值 来 
表示 所 有 这 些 蓝 色 ， 那 么 就 丢失 了 图 像 的 细节 ， 但 是 赢得 了 图 像 的 存储 空间 和 传送 时 间 。 
在 理想 情况 下 ， 人 们 希望 通过 分 析 重 复 的 图 像 模式 (如 纹理 、 对 象 等 ) 来 识别 更 高 层次 的 规 
律 性 。 这 为 更 高 层次 、 更 简单 、 更 有 用 地 描述 景象 提供 了 可 能 ， 并且 实现 了 比 像素 级 更 好 
的 压缩 。 如 果 我 们 扫描 了 文档 页 ， 则 我 们 得 到 的 不 是 随机 的 有 /无 像素 ， 而 是 一 些 字 符 的 
位 图 。 这 样 的 数据 是 有 结构 的 ， 并 且 我 们 利用 这 些 元 余 信息 ， 找 出 数据 的 较 短 描述 :“A” 
的 16X16 的 位 图 占 32 字 节 ， 其 ASCII 码 只 占 1€ 5. 

在 文档 聚 类 (document clustering) 中 ,目标 是 把 相似 的 文档 分 组 。 例 如 ， 新 闻 报 道 可 
以 进一步 划分 为 政治 、 体 育 、 时 尚 、 艺 术 等 子 组 。 通 常 ， 文 档 用 词 袋 (bag of words) Rm, 
即 预先 定义 N 个 词 的 词典 ， 并 且 每 个 文档 都 是 一 个 N 维 二 元 癌 量 ， 如 果 第 i 个 词 出 现在 
该 文档 中 ， 则 其 第 i 个 分 量 取 1。 删 除 后 级 “-s” 和 “-ing” 和 等， 以 避免 重复 ， 并 且 不 用 “of”、 
“and” 等 不 包含 什么 信息 的 词 。 然 后 ， 文 档 根 据 它们 包含 的 相同 词 的 个 数 分 组 。 当 然 ， 如 
何 选取 词典 是 至 关 重 要 的 。 

机 器 学 习 方 法 还 应 用 于 生物 信息 学 (bioinformatics) 。 在 我 们 的 基因 组 中 ，DNA 是 “ 生 
命 的 蓝图 ”， 也 是 碱 基 ( 即 A、G、C 和 T) 序 列 。RNA 由 DNA 转录 而 来 ， 而 蛋白 质 由 
RNA 转换 而 来 。 蛋 白质 就 是 生命 体 和 生命 体 的 产物 。 正 如 DNA 是 碱 基 序 列 ， 和 蛋白 质 则 是 
氨基 酸 ( 由 碱 基 定义 ) 序 列 。 计 算 机 科学 在 分 子 生 物 学 的 应 用 领域 之 一 就 是 比 对 (align- 
ment) ， 即 将 一 个 序列 与 男 一 个 匹配 。 这 是 一 个 困难 的 串 匹 配 问题 ， 因 为 序列 可 能 相当 长 ， 
有 很 多 模板 串 要 进行 匹配 ， 并 且 还 可 能 会 删除 、 插 入 和 置换 。 聚 类 用 于 学 习 基 序 (motifs)， 
这 是 蛋白质 结 构 中 反复 出 现 的 氨基 酸 序列 。 基 序 之 所 以 令 人 感 兴 趣 ， 是 因为 它们 可 能 对 应 
于 它们 所 表征 的 序列 内 部 的 结构 或 功能 要 素 。 比 方 说 ， 如 果 氨 基 酸 是 字母 ， 和 蛋白 质 是 名 
子 ， 那 么 基 序 就 像 单词 ， 即 具有 特别 意义 、 频 繁 出 现在 不 同 句子 中 的 一 串 字 母 。 


1.2.5 增强 学 习 
在 革 些 应 用 中 ， 系 统 的 输出 是 动作 (action) 的 序列 。 在 这 种 情况 下 ， 单 个 的 动作 并 不 
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重要 ， 重 要 的 是 策略 (policy)， 即 达到 目标 的 正确 动作 的 序列 。 不 存在 中 间 状 态 中 最 好 动 
作 这 种 概念 。 如 果 一 个 动作 是 好 的 策略 的 组 成 部 分 ， 那 么 该 动作 就 是 好 的 。 在 这 种 情况 
下 ， 机 需 学 习 程 序 就 应 当 能 够 评估 策略 的 好 坏 程 度 ， 并 从 以 往 好 的 动作 序列 中 学 习 ， 以 便 
能 够 产生 策略 。 这 种 学 习 方 法 称 为 增强 学 习 (reinforcement learning) 算 法 。 

游戏 (game playing) 是 一 个 很 好 的 例子 。 在 游戏 中 ， 单 个 移动 本 身 并 不 重要 ， 正 确 的 
移动 序列 才 是 重要 的 。 如 果 一 个 移动 是 一 个 好 的 游戏 策略 的 一 部 分 ， 则 它 就 是 好 的 。 游 戏 
是 人 工 智 能 和 机 器 学 习 的 一 个 重要 研究 领域 。 这 是 因为 游戏 容易 描述 ， 但 又 很 难 玩 好 。 像 
国际 象 模 这 样 的 游戏 ， 其 规则 只 有 少量 的 几 条 ， 但 是 它 非常 复杂 ， 因 为 在 每 种 状态 下 都 有 
大 量 可 行 的 移动 ， 并 且 每 局 又 都 包含 大 量 的 移动 。 一 旦 有 了 能 够 学 习 如 何 玩 好 游戏 的 好 算 
Wk. 我们 也 可 以 将 这 些 算法 用 在 具有 更 显著 经 济 效 益 的 领域 。 

在 某 种 环境 下 搜寻 目标 位 置 的 机 器 人 导航 是 增强 学 习 的 男 一 个 应 用 领域 。 在 任何 时 
候 ， 机 器 人 都 能 够 朝 着 多 个 方向 之 一 移动 。 经 过 多 次 试 运行 ， 机 器 人 应 当 学 到 正确 的 动作 
序列 ， 尽 可 能 快 地 从 某 一 初始 状态 到 达 目 标 状 态 ， 并 且 不 会 撞 到 任何 障碍 物 。 

使 增强 学 习 更 困难 的 一 个 因素 是 系统 具有 不 可 靠 和 不 完整 的 感知 信息 。 例 如 ， 装 备 视 
频 昭 相机 的 机 右 人 就 得 不 到 完整 的 信息 ， 因 此 该 机 右 人 总 是 处 于 部 分 可 观测 状态 (partially 
observable state) ， 并 且 在 决定 其 动作 时 应 当 将 这 种 不 确定 性 考虑 在 肉 。 例 如 ， 机 器 人 可 
能 不 知道 它 在 房间 的 准确 位 置 ， 而 只 知道 其 左边 有 一 道 墙 。 一 个 任务 还 可 能 需要 多 智能 主 
体 (multiple agents) 的 并 行 操 作 ， 这 些 智 能 主体 将 相互 作用 并 协同 操作 ， 以 便 完 成 一 个 共 
同 的 目标 。 机 器 人 足球 是 这 种 情况 的 例子 之 一 。 


1.3 注释 


进化 是 形成 我 们 的 身体 形状 和 我 们 内 在 本 能 的 主要 力量 。 我 们 还 需要 终生 学 习 ， 以 改 
变 我 们 的 行为 。 这 有 助 于 我 们 适应 进化 论 还 不 能 预测 的 环境 变化 。 在 合适 的 环境 中 ， 具 有 
短暂 寿命 的 生物 体 可 能 具备 它们 所 有 天 生 的 行为 能 力 ， 而 上 苑 并 未 赋予 我 们 应 对 在 有 限 生 
命中 可 能 遇见 的 所 有 状况 的 能 力 。 但 是 ， 进 化 赋 子 我 们 大 脑 和 学 习 机 制 ， 使 得 我 们 可 以 根 
据 经 验 实 现 目 我 更 新 ， 从 而 适应 各 种 环境 。 当 我 们 在 特定 情境 下 学 习 最 好 的 策略 时 ， 知 识 
就 存储 在 我 们 的 大 脑 里 。 当 情境 再 现时 ， 当 我 们 再 认 知 (“ 认 知 ?意味 认 出 ) 情 境 时 ， 我 们 就 
能 够 回忆 起 合适 的 策略 并 采取 相应 的 动作 。 

不 过 ， 学 习 有 其 局 限 性 。 就 我 们 大 脑 的 有 限 容量 来 说 ， 也 许 有 些 东 西 我 们 永远 都 不 可 
能 学 会 ， 正 像 我 们 永远 不 可 能 "学 会 ?长 出 第 三 只 手臂 或 在 脑袋 后 面 长 眼睛 ， 即 使 它们 是 有 
用 的 我 们 也 学 不 会 。 注 意 ， 与 心理 学 、 认 知 科学 以 及 神经 系统 科学 不 同 ， 机 融 学 习 的 目标 
并 不 是 理解 人 类 和 动物 学 习 的 过 程 ， 而 是 像 任何 工程 领域 一 样 ， 机 顺 学 习 旨 在 构建 有 用 的 
系统 。 

几乎 所 有 的 科学 领域 都 在 用 模型 拟 合 数据 。 科 学 家 设计 实验 、 进 行 观 测 并 收集 数据 。 
然后 ， 通 过 寻找 解释 所 观测 数据 的 简单 模型 ， 尝 试 抽取 知识 。 该 过 程 称 为 归纳 (induc- 
tion)， 它 是 从 一 组 特别 的 示例 中 提取 通用 规则 的 过 程 。 

现在 ， 这 样 的 数据 分 析 已 经 不 能 依赖 人 工 完 成 了 ， 原 因 有 二 : 一 是 数据 量 巨 大 ; 二 是 
能 够 做 这 种 分 析 的 人 非常 短缺 旦 人 工分 析 又 很 昂贵 。 因 此 ， 对 于 能 够 分 析 数 据 且 自动 从 中 
提取 信息 的 计算 机 模型 ， 也 就 是 说 对 于 学 习 ， 人 们 的 兴趣 正在 不 断 地 增长 。 

在 下 面 的 章节 中 ， 我 们 要 讨论 的 方法 源 于 不 同 的 科学 领域 。 有时， 相同 的 算法 会 在 多 
个 领域 中 沿 着 各 目 不 同 的 历史 轨迹 被 独立 地 发 现 。 


引 


wuh 


在 统计 学 中 ， 从 特殊 观测 到 一 般 描 述 称 为 推断 (inference)， 而 学 习 称 为 估计 (estima- 
tion) 。 分 类 在 统计 学 中 称 为 判别 式 分 析 (discriminant analysis) (McLachlan 1992; Hastie, 
Tibshirani 和 Friedman 2001)。 在 计算 机 价格 低廉 且 数 量 充 足以 前 ， 统 计 学 家 只 能 处 理 小 
样本 。 作 为 数学 家 ， 统 计 学 家 主要 使 用 能 够 精确 分 析 的 简单 参数 模型 。 在 工程 学 中 ， 分 类 
称 为 模式 识别 (pattern recognition)， 方 法 是 非 参 数 的 ， 并 且 更 大 程度 是 凭借 经 验 的 (Du- 
da, Hart 和 Stork 2001; Webb 1999). 

机 器 学 习 还 与 人 工 智 能 (artificial intelligence) § Æ (Russell 和 Norvig 1995), AA 
能 系统 应 当 能 够 适应 其 环境 的 变化 。 像 视觉 、 语 音 和 机 器 人 这 样 的 应 用 领域 都 是 从 样本 数 
据 中 学 习 。 在 电子 工程 领域 ， 信 号 处 理 (signal processing) 的 人 研究 导致 自 适应 计算 机 视觉 
和 语音 程序 出 现 。 其 中 ， 隐 马尔 科 夫 模型 (Hidden Markov Model，HMM) 的 发 展 对 于 语 
音 识 别 尤其 重要 。 

20 世纪 80 年 代 后 期 ， 随 着 VLSI 技术 的 发 展 和 制造 包含 数 千 个 处 理 需 并 行 便 件 的 可 
能 性 出 现 ， 基 于 多 处 理 单元 的 分 布 式 计算 理论 的 可 行 性 使 得 人 工 神 经 网 络 (artificial neural 
network) 人 研究 领域 获得 重生 (Bishop，1995)。 随 着 时 间 的 推进 ， 人 们 认识 到 在 神经 网 络 研 
究 领 域 中 ， 大 多 数 神 经 网 络 学 习 算 法 都 具有 统计 学 的 基础 (例如 ， 多 层 感 知 锅 就 是 另 一 类 
的 非 参 估计 )， 因 此 模拟 人 脑 计算 的 说 法 开始 逐渐 汉 出 。 

近年 来 ， 基 于 核 的 算法 (如 支持 向 量 机 ) Ho. BUT HP PERSA. x EI LE 
用 于 各 种 应 用 ， 尤 其 适合 生物 信息 学 和 自然 语言 处 理 方面 的 应 用 。 如 今 ， 人 们 已 经 广泛 认 
识 到 ， 对 于 学 习 而 言 ， 好 的 数据 表示 至 关 重 要 ， 而 核 消 数 是 一 种 引进 这 种 专家 知识 的 好 
Hm. 

另 一 种 新 方法 是 使 用 生成 模型 (generative model), ， 它 通过 一 组 隐藏 因子 的 相互 影 啊 来 
解释 观测 数据 。 一 般 而 言 ， 图 模型 (graphical model) 用 来 对 这 些 因 子 和 数据 的 相互 影响 进 
行 可 视 化 ， 而 贝 叶 斯 形式 化 机 制 (Bayesian formalism) 使 我 们 既 可 以 定义 隐藏 因子 和 模型 
上 的 先 验 信息 ， 又 能 推导 模型 的 参数 。 

最 近 ， 随 着 存储 和 连接 费用 的 降低 ， 在 因特网 上 使 用 非常 大 的 数据 库 已 经 成 为 可 能 ， 
再 加 上 廉价 的 计算 ， 已 经 使 得 在 大 量 数据 上 运行 学 习 算 法 成 为 可 能 。 在 过 去 的 几 十 年 中 ， 
人 们 一 般 相 信 ， 对 于 人 工 智能 而 言 ， 我 们 需要 新 的 范 型 、 新 的 思维 、 新 的 计算 模型 或 一 些 
全 新 的 算法 。 

考虑 到 机 器 学 习 最 近 在 各 领域 的 成 功 ， 也 许可 以 说 ， 我们 需要 的 不 是 新 算法 ， 而 是 大 
量 数据 实例 和 在 这 些 数 据 上 运行 算法 的 充足 计算 能 力 。 例 如 ， 支 持 癌 量 机 源 于 势 函 数 (po- 
tential function) 、 线 性 分 类 和 基于 最 近邻 的 方法 ， 这 些 都 是 20 世纪 50 或 60 年 代 提 出 的 ， 
那 时 ， 我 们 只 是 没有 适合 这 些 算法 的 快速 计算 机 或 大 型 存储 器 ， 不 能 完全 展示 它们 的 淤 
力 。 可 以 推测 ， 机 峰 翻 译 甚至 规划 这 样 的 任务 都 可 以 用 这 种 相对 简单 的 算法 来 解决 ， 但 需 
要 在 大 量 实例 数据 上 训练 或 通过 长 时 间 试 错 运 行 。“ 深 度 学 习 ” 最 近 取 得 的 成 功 支 持 了 这 种 
说 法 。 智 能 看 来 不 像 源 于 某 些 稀奇 上 古怪 的 公式 ， 而 是 源 于 人 简单、 直截了当 的 算法 的 耐心 和 
近乎 蛮 力 的 使 用 。 

I HE 45 4 (data mining) 的 命名 来 源 于 机 器 学 习 算 法 在 商界 海量 数据 上 的 应 用 (Witten 
和 Frank 2011; Han 和 Kamber 2011)。 在 计算 机 科学 领域 中 ， 数 据 挖 掘 也 称 为 数据 库 中 
50 72, X JI (Knowledge Discovery in Databases, KDD), 

在 统计 和 学、 模式 识 别 、 神 经 网 络 、 信 号 处 理 、 控 制 、 人 工 智 能 以 及 数据 挖掘 等 不 同 领 
域 中 ， 人 研究 工作 遵循 着 各 自 的 途径 ， 并 有 其 各 上 自 的 侧重 点 。 本 书 的 目标 是 结合 所 有 这 些 研 


[ 16 | 


[17 | 


究 重 点 ， 以 便 给 出 统一 的 处 理 问题 方法 和 建议 的 解决 方案 。 
1.4 相关 资源 

机 和 融 学 习 的 最 新 研究 成 果 发 表 在 不 同 领域 的 会 议和 期 刊 上 。 机 器 学 习 专 门 的 期 刊 有 
(Machine Learning》( 机 和 需 学 习 ) 和 《Journal of Machine Learning Research》( 机 器 学 习 研 
3X), (24 Neural Computation》( 神 经 计算 )、《Neural Networks》( 神 经 网 络 ) 以 及 《IEEE 
Transactions on Neural Networksand Learning Systems) (IEEE 神经 网 络 和 学 习 系 统 汇 刊 ) 
这 样 的 期 刊 也 发 表 了 有 关 大 量 机 需 学 习 的 论文 。 统 计 学 方面 的 期 刊 ， 如 《Annals of Statis- 
tics》( 统 计 学 年 鉴 ) 和 《Journal of the American Statistical Association》( 美 国 统计 学 会 杂志 ) 
也 会 发 表 一 些 机 顺 学 习 方 面 的 文章 ， 并 且 许 多 《IEEE Trousactions》， 如 《Pattern Analysis 
and Machine Intelligence) (IEEE 模式 分 析 与 机 需 智 能 汇 刊 )、《Systems，Man，and Cy- 
bernetics》( 系 统 、 人 和 控制 论 )、《Image Processing) (IEEE 图 像 处 理 汇 刊 ) 和 《Signal Pro- 
cessing) (IEEE 信号 处 理 汇 刊 ) 都 有 一 些 涉 及 机 器 学 习 的 理论 和 它 应 用 的 有 趣 论 文 。 

关于 人 工 知 能、 模式 识别 和 信号 处 理 方面 的 期 刊 也 包含 机 咒 学 习 方 面 的 文章 。 以 数据 
挖掘 为 主 的 期 刊 有 《Data Mining and Knowledge Discovery》( 数 据 控 掘 与 知识 发 现 )、 
(IEEE Transactions on Knowledge and Data Engineering) (IEEE 知识 与 数据 工程 汇 刊 ) 以 
及 《ACM Special Interest Group on Knowledge Discovery and Data Mining Explorations 
Journal) CACM 知识 发 现 和 数据 挖掘 特 别 兴趣 组 期 刊 ) 。 

关于 机 天 学 习 方面 的 主要 会 议 有 "Neural Information Processing Systems (NIPS)” , 
“Uncertainty in Artificial Intelligence CUAL)”, “International Conference on Machine 
Learning (ICML)”, “European Conference on Machine Learning (ECML)” V J£ “Com pu- 
tational Learning Theory(COLT)”。 模 式 识 别 、 神 经 网 络 、 人 工 智 能 、 模 糊 逻 辑 和 遗传 算 
法 方面 的 会 议 ， 以 及 关于 计算 机 视觉 、 语 音 技 术 、 机 器 人 和 数据 挖掘 等 应 用 方面 的 会 议 ， 
也 会 有 针对 机 硕 学 习 的 专题 。 

网 站 http://www. ics. uci. edu/ — mlearn/ MLRepository. html 上 的 UCI Repasitory 包含 大 
HUBS. SOIT OL aS 2J YE S 26 FE EE AE BE OF Oh SEE. 03 — SEE hs ht- 
tp: //lib. stat. emu. edu 上 的 Statlib。 此 外 ， 还 有 一 些 针 对 特定 应 用 的 数据 库 ， 例 如 ， 针 对 计 
算 生 物 学 、 人 脸 识 别 、 语 音 识别 等 。 

新 的 、 更 大 的 数据 集 不 断 地 添加 到 这 些 库 中 。 但 是 ， 有 些 研究 者 仍然 相信 这 些 库 的 范 
围 有 限 ， 不 能 反映 实际 数据 的 全 部 特征 ， 因 此 在 这 些 库 中 的 数据 集 上 的 准确 性 并 不 说 明 问 
题 。 甚 至 可 以 说 ， 当 反复 使 用 固定 库 中 的 数据 集 并 量 身 打造 新 算法 时 ， 我 们 正在 产生 针对 
这 些 数据 集 的 一 组 新 的 “UCI 算 法 ”。 这 就 像 仅 通过 解决 一 组 实例 问题 来 学 习 一 门 课程 的 学 
生 。 正 如 我 们 将 在 后 面 的 章节 中 所 看 到 的 ， 不同 的 算法 在 不 同 的 任务 上 会 好 一 些 ， 因 此 最 
好 是 针对 一 种 应 用 ， 为 该 应 用 抽取 一 个 或 一 些 大 型 数据 集 ， 并 针对 特定 的 任务 ， 在 这 些 数 
据 集 上 进行 算法 比较 。 | 

机 器 学 习 研 究 者 近期 的 大 多 数 文章 都 可 以 从 因特网 上 找到 ， 大 部 分 作者 还 在 网 站 上 提 
供 了 他 们 的 程序 和 数据 。 机 融 学 习 会 议和 暑期 班 上 的 辅导 讲座 也 多 半 可 以 获取 。 还 有 一 些 
实现 各 种 机 需 学 习 算 法 的 免费 工具 箱 和 软件 包 ， 其 中 http://www. cs. waikato. ac. nz/ml/ 
weak/ 上 的 Weka 特别 值得 关注 。 
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.5 习题 
. 设想 你 有 两 种 选择 : 可 以 扫描 并 传送 图 像 ; 或 者 先 使 用 光学 字符 阅读 器 (OCR)， 然 后 


再 传送 相应 的 文本 文件 。 用 对 比方 式 讨论 这 两 种 方法 的 优 缺 点 。 在 什么 时 候 一 种 方法 
比 为 一 种 方法 更 可 取 ? 


. 假定 我 们 正在 构建 一 个 OCR， 并 且 对 于 每 一 字符 ， 我 们 都 存储 该 字符 的 位 图 作为 与 逐 


个 像素 读 取 的 字符 进行 匹配 的 模板 。 请 解释 什么 时 候 这 样 的 系统 会 失败 。 为 什么 条 码 
阅读 器 目前 仍 在 使 用 ? 

解 : 在 这 种 系统 中 ， 每 个 字符 只 能 有 一 个 模板 ， 并 且 不 能 识别 来 自 多 种 字体 的 字 
ff. FE OCR-A 和 OCR-B 这 样 的 标准 字体 (通常 在 我 们 购买 的 资料 包装 上 看 到 的 字 
体 )， 它 们 与 OCR 软件 一 起 使 用 (这 些 字体 的 字符 被 稍 加 改变 ， 以 便 使 得 它们 之 间 的 相 
似 性 最 小 )。 条 码 阅 读 器 仍然 在 使 用 ， 因 为 与 阅读 任意 字体 、 字 号 和 样式 的 字符 相 比 ， 
它 仍然 更 好 (更 便宜 、 更 可 靠 、 更 可 用 )。 


. 假定 我 们 的 既定 目标 是 构建 识别 垃圾 邮件 的 系统 。 请 问 是 垃圾 邮件 中 的 什么 特征 使 我 


们 能 够 确认 它 为 垃圾 邮件 ? 计算 机 如 何 通 过 语法 分 析 来 发 现 垃圾 邮件 ? 如 果 发 现 了 垃 
圾 邮件 ， 你 希望 计算 机 如 何 处 理 它 : 自动 删除 ? 转 到 男 一 个 文件 夹 ? 还 是 仅仅 在 屏幕 
上 标 亮 显示 ? 

解 : 通常 ， 基 于 文本 的 垃圾 邮件 过 滤器 检查 邮件 中 是 否 有 某 些 词 或 符号 。 像 “机 
会 "(opportunity)、“ 伟 哥 ”(viagra)、“ 美 元 ”(dollar) 这 样 的 词 ， 以 及 像 *$” 和 “1” 这 样 
的 字符 提高 了 邮件 是 垃圾 邮件 的 概率 。 这 些 概率 从 用 户 先 前 已 经 标记 为 垃圾 邮件 的 过 
去 邮件 样 例 的 训练 集中 学 习 。 在 后 面 的 章节 中 ， 我 们 会 看 到 许多 这 样 的 算法 。 

垃圾 邮件 过 滤器 没有 100% 的 可 靠 性 ， 可 能 在 分 类 时 出 错 。 如 果 有 一 个 垃圾 邮件 没 
有 被 过 滤 掉 ， 那 么 不 太 好 ， 但 是 总 比 把 好 邮件 当 作 垃圾 邮件 过 滤 掉 好 。 稍 后 我 们 将 讨 
论 如 何 考 虑 这 种 假 正 和 假 负 的 相对 代价 。 因 此 ， 不 应 该 自动 删除 系统 认为 是 垃圾 邮件 
的 信息 ， 而 是 应 该 把 它们 放 在 一 劳 ， 使 得 如 果 用 户 愿 意 的 话 用 户 可 以 看 到 它们 ， 特 别 
是 在 使 用 垃圾 邮件 过 滤器 的 早期 阶段 ， 系 统 训练 尚 不 充分 时 尤其 如 此 。 垃 圾 邮件 过 滤 
可 能 是 机 各 学 习 的 最 好 应 用 领域 之 一 ， 学 习 系 统 可 以 自动 地 适应 垃圾 邮件 信息 产生 方 
式 的 变化 。 


. 假设 给 定 的 任务 是 制造 自动 出 租车 ， 请 定义 约束 。 输 入 是 什么 ? 输出 是 什么 ”如何 与 


乘客 沟通 ? 需要 与 其 他 的 自动 出 租车 沟通 ， 即 需要 某 种 语言 吗 ? 


. 在 购物 篮 分 析 中 ， 我 们 希望 找 出 产品 X 和 YY 二 者 之 间 的 依赖 关系 。 对 于 给 定 的 顾客 交 


易 数 据 库 ， 如 何 能 够 发 现 这 些 数据 之 间 的 依赖 关系 ? 如 何 将 依赖 关系 发 现 算法 推广 到 
多 于 两 个 的 产品 之 间 ? 


. 在 你 的 日 报 中 ， 为 政治 、 体 育 和 艺术 类 各 找 出 5 个 新 闻 报 道 样 例 。 阅 读 这 些 报道 ， 找 出 


每 类 报道 频繁 使 用 的 词 ， 这 些 词 可 能 帮助 我 们 区 别 不 同 的 类 别 。 例 如 ， 政 治 方面 的 新 
闻 报 道 多 半 会 包含 “政府 "、“ 经 济 衰退 "、“ 国 会 ”等 词 ， 而 在 艺术 类 的 新 闻 报 道中 可 能 
包括 "专辑 ” “油画 ?或 "剧院 ”等 词 。 还 有 一 些 词 ( 如 "目标 ”是 模棱两可 的 。 


. 如 果 人 脸 图 像 是 100x100 的 图 像 ， 按 行 写 出 ， 则 它 是 一 个 10 000 维 向 量 。 如 果 我 们 把 


图 像 向 右 移动 一 个 像素 ， 则 将 得 到 10 000 维 空 间 中 的 一 个 很 不 相同 的 向 量 。 如 何 构造 
一 个 对 于 这 种 扰动 具有 和 鲁 棒 性 人 脸 识 别 器 ? 
f. 通常 ， 人 脸 识 别 系 统 都 有 一 个 用 于 输入 标准 化 的 预 处 理 阶段 ， 在 识别 之 前 ， 
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将 输入 中 间 对 齐 ， 并 且 可 能 调整 大 小 。 一 般 通过 先 找 出 眼睛 ， 然 后 相应 地 变换 图 像 来 
实现 。 还 有 一 些 识 别 程序 不 把 图 像 看 作 像素 ， 而 是 从 图 像 中 提取 结构 特征 。 例 如 ， 提 
取 两 眼 间 距离 与 整 张 脸 的 大 小 之 比 。 对 于 变换 和 尺寸 变化 ， 这 种 特征 具有 不 变性 。 
8. 取 一 个 词 ， 例 如 “machine”。 写 10 次 ， 请 一 位 朋友 也 写 10 次 。 分 析 这 20 个 图 像 ， 试 找 
19 | 出 区 分 你 与 朋友 手书 的 特征 、 笔 画 类 型 、 曲 度 、 圆 和 如 何 画 点 等 。 
9. 在 估计 二 手 车 的 价格 时 ， 估 计 它 相对 于 原价 的 折旧 率 ， 而 不 是 估计 它 的 绝对 价格 更 有 
意义 。 为 什么 ? 
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Introduction to Machine Learning, Third Edition 


监督 学 习 


我 们 从 最 简单 的 情况 开始 来 讨论 监督 学 习 ， 首 先 从 正 例 和 负 例 的 集合 中 学 习 类 别 ， 继 
而 推广 并 讨论 多 类 的 情况 ， 然 后 再 讨论 输出 为 连续 值 的 回归 。 


2.1 由 实例 学 习 类 

假设 我 们 要 学 习 “ 家 用 汽车 ”类 C。 现 在 有 一 组 汽车 实例 和 一 组 看 过 这 些 汽 车 的 被 调查 
的 人 。 被 调查 的 人 观察 汽车 并 标记 它们 ， 将 他 们 认为 的 家 用 汽车 标 为 正 例 (Positive exam- 
ple. ， 其 他 标 为 负 人 鲍 (negative example) 。 类 学 习 就 是 寻找 一 个 涵盖 所 有 的 正 例 而 不 涵盖 任 
何 负 例 的 描述 。 这 样 做 ， 我 们 可 以 做 预测 : 给 定 一 辆 我 们 以 前 从 未 见 过 的 汽车 ， 检 查 学 习 
得 到 的 描述 ,我 们 就 可 以 判断 这 辆 汽车 是 否 为 家 用 汽车 。 我 们 还 可 以 进行 知识 提取 。 这 种 
研究 可 能 由 汽车 公司 赞助 ， 目 的 可 以 是 为 了 理解 人 们 对 家 用 汽车 的 期 望 。 

经 过 与 该 领域 专家 沟通 ,假定 我 们 得 到 了 一 个 结论 : 在 我 们 所 掌握 的 汽车 的 所 有 特 
征 中 ， 区 别家 用 汽车 与 其 他 汽车 的 特征 是 价格 和 发 动机 功率 。 这 两 个 属性 就 是 类 识别 
器 的 输入 (Cinput) 。 注 意 ， 当 我 们 决定 采用 这 种 特殊 的 输入 表示 (input representation) 
时 ,我 们 忽略 其 他 属性 ， 将 它们 看 作 不 相关 的 。 尽 管 有 人 可 能 认为 座位 数量 、 和 车身 颜 
色 等 属性 对 于 辨别 车 型 也 很 重要 ， 但 是 这 里 为 了 简单 起 见 ， 我 们 只 考虑 价格 和 发 动机 

我 们 假设 价格 为 第 一 个 输入 属性 z (比如 以 美元 计算 ) ， 发 动机 功率 为 第 二 个 输入 属性 
zz( 比 如 以 立方 厘米 计 发 动机 排 量 )。 这 样 ， 每 辆 汽车 就 可 以 用 两 个 数值 来 表示 ， 


Tı 
x= | | (2-1) 
X2 


] dX x 是 正 例 
"Td du x EAB Y 
每 辆 汽车 都 用 一 个 这 种 有 序 对 (x，z) 来 表示 ， 而 训练 集中 包括 NN 个 这 样 的 实例 ， 
X eiu (2-3) 
其 中 , 二 用 于 标记 训练 集中 的 各 个 汽车 实例 ， 它 不 表示 时 间或 任何 类 似 的 序 。 
现在 ,我们 的 训练 数据 可 以 绘制 在 二 维 空间 (x;!，x;) 上 ， 其 中 每 个 实例 t 是 一 个 数据 
点 ， 坐 标 为 (xi，xzs)， 其 类 型 ( 即 正 或 负 ) 由 x 给 定 ( 参 见 图 2-1). 
通过 进一步 与 专家 讨论 和 分 析 数 据 ， 我 们 有 理由 相信 ， 对 于 家 用 汽车 ， 其 价格 和 发 动 
机 功率 应 当 是 在 某 个 确定 的 范围 内 : 
(bi x Tr b AND (el 过 发 动机 功率 <e) (2-4) 
其 中 pis po. ey e; 为 适当 的 值 。 式 (2-4) 假 定 类 Cc 是 价格 -发 动机 功率 空间 中 的 矩形 (参见 
fee AE 


而 它 的 标号 表示 汽车 的 类 型 
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x,: 价格 Pi P2 x,: 价格 
图 2-1 “家 用 汽车 "类 的 训练 集 。 其 中 每 个 点 代 图 2-2 假设 类 的 实例 。 家 用 汽车 类 是 价格 和 发 
表 一 个 汽车 实例 ， 点 的 坐标 值 分 别 表示 动机 功率 空间 中 的 矩形 


汽车 的 价格 和 发 动机 功率 。“ 十 ”表示 正 
例 ( 家 用 汽车 ),“ 一 ”表示 负 例 ( 非 家 用 汽 
车 )， 即 其 他 类 型 的 汽车 

式 (2-4) 确 定 了 假设 类 (hypothesis class) 925( 即 矩形 的 集合 ) ， 我 们 相信 C 是 从 中 抽取 
的 。 学 习 算 法 应 当 找到 一 个 由 特定 4 76TH Cpt. pis et. e) EMRE RIT ik (hypothesis) 
hEH, AH RE Hi IC, 

SERRE M Ti. (HRBREA AN. Pai, SRM we Sor, [HE 
我 们 不 知道 哪个 特定 的 AE 71 等 于 或 最 接近 C。 然 而 ,一旦 我 们 把 注意 力 局 限于 这 个 假设 
类 ， 学 习 类 就 归结 为 较 简 单 的 问题 一 一 找 出 
EX h 的 4 个 参数 。 

我 们 的 目标 是 找 出 hE XH， 它 与 C 尽 可 能 
类 似 。 假 设 h 对 实例 x 进行 预测 ， 使 得 

1 whx YEN 
0 mA RX 分 类 为 负 例 
(2-5) 

实际 上 ， 我 们 并 不 知道 C(x)， 因 此 无 法 
评估 Cx) 与 C(x) 的 匹配 程度 。 我 们 所 拥有 的 
是 训练 集 X， 它 是 所 有 可 能 的 x 的 一 个 小 子 
集 。 经 验 误 差 (empirical error) Jé A KWJ TA WÉ 
(prediction) 不 同 于 XX 中 给 定 的 预期 值 (re- 
quired value) 的 训练 实例 所 占 的 比例 。 对 于 : : 

给 定 的 训练 集 X， 假 设 h 的 误差 是 P gen 
EG) WAG) Ar) (2-6) 图 2-3 C 是 实际 的 类 , h 是 我 们 的 诱导 假设 。C 为 
ie 1 而 为 0 的 点 为 假 负 ，C 为 0 而 A 为 1 的 


ny) = 





Hr, 4 ab 时 lba 1, a=b NA 点 为 假 正 。 其 他 点 ， 即 真正 和 真 负 ， 都 被 
值 为 0( 参 见 图 2-3). 正确 地 分 类 


在 我 们 的 例子 中 ， 假 设 类 7 是 所 有 可 能 矩形 的 集合 。 每 个 四 元 组 (p1+，pl，e?，e2 ) 都 
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定义 了 fT 中 的 一 个 假设 h， 而 我 们 需要 选择 其 中 最 好 的 一 个 。 换 句 话 说 ， 给 定 训 练 集 ， 我 
们 需要 找 出 这 4 个 参数 的 值 ， 使 它 涵盖 所 有 的 正 例 而 不 包括 任何 负 例 。 注 意 ， 如 有 果 zi 和 
zs 都 是 实数 值 ， 则 存在 无 穷 多 个 h 满足 上 述 条 件 ， 也 就 是 说 ， 对 于 这 些 h， 误差 玉 为 0。 
但 是 ， 给 定 一 个 接近 于 正 例 和 负 例 边界 的 某 个 未 来 实例 ， 不同 的 候选 假设 可 能 做 出 不 同 的 
预测 。 这 是 泛 化 (generalization) 问 题 ， 即 我 们 的 假设 对 不 在 训练 集中 的 未 来 实例 分 类 准确 
率 如 何 。 

一 种 可 能 的 策略 是 找 出 最 特殊 的 假设 (most specific hypothesis)S， 它 是 涵盖 所 有 正 例 
而 不 包括 任何 负 例 的 最 紧凑 的 矩形 (参见 图 2-4)。 这 样 就 得 出 一 个 假设 由 =S 作为 诱导 类 
(induced class) 。 注 意 ， 实 际 的 类 C 可 能 比 S 更 大 但 绝 不 会 更 小 。 最 一 般 的 假设 (most gen- 
eral hypothesis) G 是 涵盖 所 有 正 例 而 不 包括 任何 负 例 的 最 大 矩形 (参见 图 2-4)。 对 于 任何 
HF SHG 之 间 的 hE€H，h 为 无 误差 的 有 效 假设 ， 称 作 与 训练 集 相 容 (consistent)， 并 且 
这 样 的 及 形成 解 空间 (version space)。 给 定 另 一 个 训练 集 ，S、G、 解 空间 、 参 数 和 因此 学 
习 得 到 的 假设 h 可 能 不 同 。 

实际 上 ， 依 赖 于 训练 集 X 和 假设 类 HH ， 可 能 存在 多 个 S; 和 G;， 它 们 分 别 形成 S 集 和 G 
集 。S 集中 的 每 个 假设 都 与 所 有 的 实例 相 容 ， 并 且 不 存在 更 特殊 的 相 容 假设 。 类 似 地 ，G 
集中 的 每 假设 都 与 所 有 的 实例 相 容 ， 并且 不 存在 更 一 般 的 相 容 假设 。 这 两 个 集合 形成 边界 
集 ， 它 们 之 间 的 任何 假设 都 是 相 容 的 ， 并 且 是 解 空间 的 一 部 分 。 存 在 一 个 称 作 候 选 删除 的 
算法 ， 随 着 逐个 看 到 训练 实例 ， 它 增 量 地 更 新 S 集 和 C 集 ， 见 Mitchell 1997。 我 们 假定 X 
足够 大 ， 存 在 唯一 的 S AIG, 

给 定 X， 我 们 可 以 找到 SRG, 或 解 空间 中 的 任意 hh， 并 将 它 作 为 假设 h。 直 观 地 ,hh 
应 该 选取 S 与 G 的 中 间 ， 这 将 增 大 边缘 (margin) ， 而 边缘 是 边界 和 与 它 最 近 的 实例 之 间 的 
距离 (参见 图 2-5)。 为 了 使 误差 函数 在 具有 最 大 边缘 的 hh 上 最 小 化 ， 应 该 选择 这 样 的 误差 
Hi) PAM: 它 不 仅 检 查实 例 是 否 在 边界 的 正确 一 侧 ， 而 且 还 要 指出 实例 离 边 界 多 远 。 也 
就 是 说 ， 取 代 返 回 0/1 AGO, 我们 需要 一 个 返回 携带 x 到 边界 距离 度量 值 的 假设 ， 并且 
需要 一 个 使 用 该 值 的 不 同 于 检查 相等 性 1(，) 的 损失 函数 。 


发 动机 功率 
发 动机 功率 


Ws 
3; 





x,: 价格 x,: 价格 


K 2-4 S 是 最 特殊 的 假设 ，G 是 最 一 般 的 假设 ”图 2-5 为 了 获得 最 佳 分 离 ， 我 们 选择 具有 最 大 边缘 
的 假设 。 带 阴影 的 实例 是 定义 (支撑 ) 边 缘 的 
实例 。 可 以 删除 其 他 实例 ， 而 不 会 影响 h 


在 某 些 应 用 中 ， 错 误 的 决策 可 能 代价 很 高 ， 并 且 落 在 S 和 G 之 间 的 实例 都 是 不 确定 的 
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(doubt) 实例 ， 由 于 缺乏 数据 支持 ， 这 些 不 确定 实例 无 法 被 确定 地 标注 。 在 这 种 情况 下 ， 
系统 将 拒绝 (reject) 考 虑 这 些 实例 ， 并 留待 人 类 专家 来 判定 。 

这 里 ， 我 们 假定 7 包含 Cc， 即 存在 hE H， 使 得 El(h|X) 为 0。 给 定 假设 类 FH， 可 能 存 
在 不 能 学 习 C 的 情况 ， 即 不 存在 hE€ XH， 使 得 误差 为 0。 因 此 ， 对 于 任何 应 用 ， 我 们 需要 确 
保 3Xt 有 足够 的 柔性 ， 或 开具 有 足够 的 “能力 "学 习 C 。 


2.2 VC 维 


假定 有 一 个 包含 NN 个 点 的 数据 集 。 这 NN 个 点 可 以 用 2 种 方法 标记 为 正 例 和 负 例 。 
因此 ，N 个 数据 点 可 以 定义 2” 种 不 同 的 学 
习 问 题 。 如 果 对 于 这 些 问 题 中 的 任何 一 
个 ， 都 能 够 找到 一 个 假设 AE c IE DER 
fa Bil > FF. ABA BRK of E 9] (shatter) N 个 
点 。 也 就 是 说 ， 由 N 个 点 定义 的 任何 学 习 
问题 都 能 用 一 个 从 7H 抽取 的 假设 无 误差 地 
学 习 。 可 以 被 红 散 列 的 点 的 最 大 数量 称 为 
H #J VC # ( Vapnik-Chervonenkis dimen- 
sion) ， 记 为 VCCH), ERRRRAH B5 
学 习 能 力 。 

在 图 2-6 +F, RE LARP F ITH E 
形 能 够 散 列 二 维 空间 中 的 4 个 点 。 当 4 为 
二 维 空 间 中 轴 平 行 的 矩形 的 假设 类 时 ，VC 
(YH) 等 于 4。 在 计算 VC 维 时 ， 找 到 4 个 被 
散 列 的 点 就 够 了 ， 没 有 必要 散 列 一 维 空间 o aoan 7 
MEET. HER. HTRI—AREA SS mm TAN 
上 的 4 个 点 不 能 被 矩形 散 列 。 然 而 ， 我 们 
无 法 在 二 维 空 间 的 任何 位 置 设置 5 个 点 ， 使 得 对 于 所 有 可 能 的 标记 ， 一 个 矩形 能 够 分 开 正 
例 和 负 例 。 

也 许 VC 维 看 起 来 比较 悲观 ， 它 告诉 我 们 使 用 和 矩形 作为 假设 类 ， 我 们 只 能 学 习 包 括 但 
不 多 于 4 个 点 的 数据 集 。 能 够 学 习 含 有 4 个 点 的 数据 集 的 学 习 算 法 不 是 很 有 用 。 然 而 ， 这 
是 因为 VC 维 独 立 于 数据 实例 的 概率 分 布 。 在 实际 生活 中 ， 世 界 是 平滑 变化 的 ， 在 大 多 数 
时 候 相 近 的 实例 具有 相同 的 标记 ， 我 们 并 不 需要 担心 所 有 可 能 的 标记 。 有 很 多 包含 远 不 目 
4 个 点 的 数据 集 都 可 以 通过 假设 类 来 学 习 ( 参 见 图 2-1)。 因 此 ， 即 便 是 具有 较 小 VC 维 的 假 
设 类 也 是 有 应 用 价值 的 ， 并 且 比 那些 较 大 VC 维 的 假设 类 (例如 ， 具 有 无 穷 VC 维 的 查找 
表 ) 更 可 取 。 


2.3 ”概率 近似 正确 学 习 


使 用 最 紧凑 的 矩形 S 作为 假设 ,希望 找 出 需要 多 少 实例 。 我 们 希望 假设 是 近似 正确 
的 ， 即 误差 概率 不 超过 某 个 值 。 我 们 还 要 对 假设 有 信心 ， 因 为 我 们 想 知道 假设 在 大 多 数 时 
候 都 是 正确 的 (如 果 并 非 总 是 正确 的 话 )。 因 此 ， 我 们 希望 假设 很 可 能 (以 我 们 可 能 指定 的 
概率 ) 是 正确 的 。 
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在 概率 近似 正确 (Probably Approximately Correct, PAC) 学习 中 ， 给 定 类 C 和 从 未 知 但 具 
有 固定 概率 分 布 p(xz) 中 抽取 的 样本 ， 我 们 希望 找 出 样本 数 N， 使 得 对 于 任意 的 01/2 和 
c0, RIKAWRERAE Ae 的 概率 至 少 为 1 一 6 

P{CAh<e} 21—6 

其 中 CAh CRA 不 同 的 区 域 。 

在 这 种 情况 下 ， 因 为 S 是 最 紧凑 的 可 能 的 矩形， 所 以 C 与 A=S 之 间 的 误差 区 域 是 4 个 
和 矩形 条 带 之 和 (参见 图 2-7)。 我 们 希望 确保 正 例 落 在 该 x, 
区 域 (导致 错误 ) 的 概率 最 多 为 s。 对 于 任何 这 样 的 条 
带 ， 如 果 我 们 能 够 确保 该 概率 的 上 界 为 s/4， 则 误差 最 
BH A/A Se, WR, 我们 将 矩形 角 部 的 重合 部 分 计 
算 了 两 次 ， 并 且 这 种 情况 下 总 的 实际 误差 小 于 4(e/4)。 
随机 抽取 的 样本 不 在 此 条 带 中 的 概率 是 1— 6/4. BUR 
NN 个 独立 抽取 的 样本 不 在 该 条 带 中 的 概率 为 (1 一 e/ 
4)>， 而 所 有 N 个 独立 抽取 的 样本 不 在 这 4 个 矩形 条 
带 中 的 概率 最 多 为 4(1 一 e/4)”， 我 们 希望 它 最 多 为 ô. 
有 不 等 式 





(1—x)R.exp| —z] 


‘ : 图 2-7 hh 与 C 之 差 是 4 个 矩形 条 带 之 
因此 ， 如 果 选 定 N 和 8 满足 eger cr 
4exp| —eN/4 ]xzó 


则 有 4(1 一 e/4)* 二 8。 不等式 两 边 同 时 除 以 4， 再 取 ( 自 然 ) 对 数 ， 并 重新 排列 各 项 ， 得 到 
N > (4/e)log(4/8) (2-7) 
因此 ， 只 要 我 们 至 少 从 Cc 中 取 (4/e)log(4/6) 个 独立 样本 ， 并 使 用 紧凑 和 矩形 作为 假设 h， 
则 在 置信 概率 (confidence probability) 至 少 为 1 一 6 的 情况 下 ， 一 个 给 定点 被 误 分 类 的 错误 
概率 (error probability) 最 多 为 e。 减 少 6， 可 以 有 任意 大 的 置信 度 ; 而 减少 s， 可 以 有 任意 
小 的 误差 ， 并 且 我 们 在 式 (2-7) 中 看 到 ， 样 本 的 数量 是 分 别 随 1/e 和 1/6 呈 线 性 和 对 数 缓慢 
增长 的 函数 。 


2.4 噪声 


噪声 (noise) 是 数据 中 有 害 的 异常 。 由 于 噪声 的 存在 ， 类 的 学 习 可 能 更 加 困难 ， 并 且 使 
用 简单 的 假设 可 能 做 不 到 零 误差 (参见 图 2-8) 。 噪 声 有 以 下 几 种 解释 : 
e 记录 的 输入 属性 可 能 不 准确 ， 这 可 能 导致 数据 点 在 输入 空间 中 移动 。 
e 标记 的 数据 点 可 能 有 错误 ， 可 能 将 正 例 标 记 为 负 的 ， 或 相反 。 这 种 情况 有 时 称 为 指 
Şe Æ (teacher noise), 

e 可 能 存在 没有 考虑 到 的 附加 属性 ， 而 它们 会 影响 实例 的 标记 。 这 些 附加 属性 可 能 是 
隐藏 的 (hidden) 或 潜在 的 (latent)， 因 此 可 能 是 不 可 观测 的 。 这 些 被 忽略 的 属性 所 造 
成 的 影响 作为 随机 成 分 建 模 ， 是 “噪声 ?的 一 部 分 。 

如 图 2-8 所 示 ， 当 有 了 噪声 时 ， 在 正 例 与 负 实例 之 间 不 存在 简单 的 边界 ， 并 且 为 了 将 
它们 分 开 ， 需 要 对 应 于 具有 更 大 能 力 的 假设 类 的 复杂 假设 。 和 矩形 可 以 用 4 个 数 定义 ,但 
为 了 定义 更 复杂 的 形状 ， 需 要 具有 大 量 参 数 的 更 复杂 的 模型 。 利 用 这 些 复 杂 模 型 ， 可 以 
更 好 地 拟 合 数据 ， 得 到 零 误 差 ( 参 见 图 2-8 中 的 曲线 图 形 )。 另 一 种 可 行 的 方法 是 保持 模 
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型 的 简单 性 并 允许 一 些 误差 存在 (参见 图 2-8 中 的 和 矩形) 。 

使 用 简单 矩形 (除非 其 训练 误差 很 大 ) 更 有 意义 ， 原 因 如 下 : 

D 矩形 是 一 种 容易 使 用 的 简单 模型 。 容 易 
检查 一 个 点 是 在 矩形 内 还 是 在 矩形 外 ， 并 且 对 
于 未 来 的 数据 实例 ， 可 以 容易 地 检查 它 是 正 例 
还 是 负 例 。 

2) 矩形 是 一 种 容易 训练 的 简单 模型 ,并且 
具有 较 少 的 参数 。 相 对 任意 图 形 的 控制 点 来 说 ， 
比较 容易 找到 短 形 的 抛 角 值 。 利 用 小 的 训练 集 ， 
当 训练 实例 有 少许 差异 时 ， 我 们 预料 简单 模型 
比 复杂 模型 变化 小 一 些 : 简单 模型 具有 更 小 的 
方差 (variance)。 为 一 方面 ， 太 简单 的 模型 假设 
WA. Xd. 并且 如 果 基 础 类 Cunderling 
class) 并 非 那么 简单 ， 模 型 预测 就 可 能 失败 : 较 





简单 的 模型 具有 较 大 的 偏 傈 (bias)。 求 解 最 优 x, 
ERAI TH 24 F gc] fd ft AL 77 E 。 图 2-8 当 有 噪声 时 ， 在 正 例 和 负 例 之 间 不 
3) 矩形 是 一 种 容易 解释 的 简单 模型 。 和 矩形 存在 一 个 简单 的 边界 ， 使 用 简单 假 
xS Af y 的 区 间 ， 通 过 学 设 也 许 不 可 能 达到 零 误 差 的 分 类 结 
Oe ^n E VI ZRSR Dk A 数 的 简单 假设 。 使 用 大 量 控制 点 的 
提取 信息 。 分 段 函 数 能 够 导出 任意 的 闭合 图 形 


4) 如 果 输 入 数据 中 确实 存在 错误 标记 的 实 
例 或 噪声 ， 并 且 实 际 的 类 确实 就 是 矩形 这 样 的 简单 模型 ， 那 么 由 于 和 矩形 具有 较 小 的 方差 ， 
并 且 较 少 地 被 单个 实例 所 影响 ， 所 以 尽管 简单 矩形 可 能 导致 训练 集 上 较 大 的 误差 ， 但 是 它 
也 是 比 曲线 图 形 更 好 的 分 类 需 。 给 定 类 似 的 经 验 误 差 ， 我 们 说 简单 (但 不 是 太 人 简单 的 ) 模 型 
比 复杂 模型 泛 化 能 力 更 好 。 该 原则 就 是 著名 的 奥 克 姆 首 刀 (Occam's razor)， 它 说 较 简 单 的 
解释 看 上 去 更 可 信 ， 并 且 任 何不 必要 的 复杂 性 都 应 该 被 据 弃 。 


2.5 ”学习 多 类 
在 学 习 家 用 汽车 的 例子 中 ， 我 们 有 属于 家 用 汽车 类 的 正 例 和 属于 其 他 所 有 汽车 类 的 负 
例 。 这 是 一 个 两 类 (two-class) 问 题 。 通 常情 况 下 ， 有 个 类 ， WAJ C;jG—1, =, K), FFA 
每 个 输入 实例 都 严格 地 属于 其 中 一 个 类 。 训 练 集 形 如 
y= {xe hE, 


其 中 r+ 是 KK 维 的 ， 并 且 


p; = 


I ‘EG 
| anoles (2-8) 


0 如 果 x € Cj Hi 
一 个 例子 在 图 2-9 中 给 出 ， 其 中 实例 来 自 3 个 类 : 家 用 汽车 、 运 动 汽车 和 豪华 轿车 。 
在 用 于 分 类 的 机 器 学 习 中 ， 我们 希望 学 习 将 一 个 类 与 所 有 其 他 类 分 开 的 边界 。 这 样 ， 
我 们 把 K 类 的 分 类 问题 看 作 K 个 两 类 问题 。 属 于 C; 类 的 训练 实例 是 假设 h; 的 正 例 ， 属 于 
所 有 其 他 类 的 训练 实例 是 假设 h; 的 负 例 。 因 此 ， 在 K 类 问题 中 ,我 们 要 学 习 K 个 假设 ， 
使 得 


1 "e C, 
h;Cx') -1 ats E (2-9) 
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图 2-9 有 3 类 : 家 用 汽车 、 运 动 汽车 和 豪华 轿车 。 有 3 个 归纳 的 假设 ,每 个 假设 覆盖 一 个 类 的 实例 
而 不 包括 男 外 两 个 类 的 实例 。“?” 为 拒绝 区 域 ， 其 中 没有 类 或 有 多 个 类 被 选中 


整体 经 验 误差 对 所 有 类 在 所 有 实例 上 的 预测 上 取 和 |: 


N K 
Eth JE [x2 = >) 9 1u(25) AD (2-10) 


t=1 ¿i=l 


在 理想 情况 下 ， 对 于 给 定 的 x， 只 有 其 中 一 个 假设 h(x) (i 二 1，…，K) 为 1， 并 且 我 
们 能 够 选 定 一 个 类 。 但 是 ， 当 没有 或 者 有 两 个 或 者 更 多 的 h;(x) 为 1 时 ， 我 们 就 无 法 选 定 
一 个 类 ， 这 是 不 确定 (doubt) 情 况 并 且 分 类 器 拒绝 这 种 情况 。 

在 学 习 家 用 汽车 的 例子 中 ， 只 用 了 一 个 假设 ， 并 且 只 对 正 例 建 模 。 任 何 未 包括 在 其 
中 的 负 例 都 不 是 家 用 汽车 。 作 为 另 一 种 选择 ， 有 时 我 们 可 能 更 倾向 于 构建 两 个 假设 ， 一 
个 是 对 正 例 ， 另 一 个 是 对 负 例 。 这 也 为 被 另 一 个 假设 所 覆盖 的 负 例 假定 一 个 结构 。 将 家 
用 汽车 与 运动 汽车 分 开 就 是 一 种 这 样 的 问题 ， 每 个 类 都 有 其 自己 的 结构 。 这 种 处 理 的 优 
所 在 于 ， 如 有 果 输 入 的 是 一 个 紧 华 轿车 ， 我 们 就 能 够 通过 两 个 假设 来 判定 其 为 负 例 并 拒绝 
该 输入 。 

如 果 我 们 预料 数据 集中 所 有 类 的 结构 (在 输入 空间 中 的 形状 ) 都 类 似 ， 则 可 以 对 所 有 类 
使 用 相同 的 假设 类 。 例 如 ， 在 手写 数字 识别 数据 集中 ， 我 们 预料 所 有 数字 都 具有 类 似 的 分 
布 。 但是， 在 医疗 诊断 数据 集中 ， 有 病人 和 健康 人 两 个 类 ， 这 两 个 类 可 能 具有 完全 不 同 的 
分 布 。 一 个 人 是 病人 可 能 有 不 同 原因 ， 反 映 在 输入 中 的 不 同 : 所 有 健康 的 人 都 是 相似 的 ， 
而 每 个 病人 都 有 他 们 自己 的 病情 。 


2.6 回归 


在 分 类 问题 中 ， 给 定 一 个 输入 ， 所 产生 的 输出 是 一 个 布尔 值 ， 这 是 一 个 是 /和 否 类 型 的 
答案 。 当 输出 是 数值 时 ， 我 们 希望 学 习 的 不 是 一 个 类 CCx)E {0，1}， 而 是 一 个 数值 函数 。 
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X = (sui 
其 中 x ER。 如 果 不 存 在 噪声 ， 则 任务 是 插值 (interpolation)。 我 们 希望 找到 通过 这 些 点 的 
函数 f(x) ， 使 得 

r= f(x) 
在 多 项 式 插 值 (polynomial interpolation) }, Aw N 个 点 ， 找 出 可 以 用 来 预测 x 的 任 

意 输出 的 (N 一 1) 阶 多 项 式 。 如 果 x 落 在 训练 集中 x 的 值 域 之 外 ， 则 该 方法 称 为 外 插 或 外 
推 (extrapolation)。 例 如 ， 在 时 间 序 列 预 测 中 ， 我 们 拥有 最 新 的 数据 ， 希 望 预 测 未 来 的 值 。 
在 回归 (regression) 分 析 中 ， 品 声 添加 到 未 知 函 数 的 输出 

r“ = f(x‘) +e (2-11) 
其 中 ，f(x) CREA A PAM, mM e 是 随机 噪声 。 对 噪声 的 解释 是 ， 存 在 我 们 无 法 观察 到 的 
额外 隐藏 (hidden) 变 量 

r= f” (Xi) (2-12) 
其 中 z Fern ee ae RE. FT a ao (RK. VIE SE X E89 £6 3s Tx 25 7E 


N 
ECg|X) = 4 >) Ur — g(x)F (2-13) 
t=1 


因为 + 和 g(x) 是 数值 量 ( 例 如 ， 属 于 R)， 所 以 存在 定义 在 它们 值 域 上 的 序 ， 而 且 我 们 
可 以 定义 值 之 间 的 距离 (distance) 作 为 差 的 平方 。 相 对 于 分 类 使 用 的 相等 或 不 等 来 说 ， 距 
离 为 我 们 提供 了 更 多 的 信息 。 差 的 平方 是 一 种 可 以 使 用 的 误差 (损失 ) 了 浮 数 。 男 一 种 误差 区 
数 是 差 的 绝对 值 。 在 后 续 章 节 中 ， 我 们 将 看 到 其 他 的 例子 。 

我 们 的 目标 是 找到 最 小 化 经 验 误差 的 g(，。)。 而 且 我 们 的 方法 是 相同 的 。 我 们 对 
g(。) 假 定 一 个 具有 少量 参数 的 假设 类 。 如 果 假 定 g(x) 是 线性 的 ， 则 有 


d 
g(x) = wazi te + wt Tw = >) wz + w, (2-14) 
j=1 


ME, HER 1. 2. 3 节 的 例子 ， 那 里 我 们 估计 二 手 车 的 价格 。 当 时 我 们 使 用 单个 输入 
的 线性 模型 


gr) = war t w, (2-15) 
其 中 ，w, 和 w, 是 需要 从 数据 中 学 习 的 参数 。w, 和 的 值 应 该 使 下 式 最 小 化 
E(w, ,w, | X) -4> [5 — Ge, 2! 4-9.) ]' (2-16) 
它 可 最 小 点 可 以 通过 求 玉 关于 ww 和 w, 的 偏 导 数 ， 令 偏 导 数 为 0， 并 求解 这 两 个 未 知 
量 来 计算 : 
Dorr — TIN 
ie Ge 


M (a0! — Nz? 
Wy, = F—w, T (2-172 
Hr, z= S)a'/Nvr= 》jr'/N 。 找 到 的 直线 如 图 1-2 所 示 。 


如 果 线 性 模型 过 于 简单 ， 则 它 就 会 太 受 限制 ， 导 致 大 的 近似 误差 ， 在 这 种 情况 下 ， 输 
出 可 以 取 输 入 的 较 高 阶 的 函数 ， 如 二 次 函数 
g(x) = wr + wr tw, (2-18) 
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这 里 类 似 地 ， 我 们 有 参数 的 解析 解 。 当 多 项 式 的 阶 增加 时 ， 训 练 数据 上 的 误差 将 会 降低 。 
但 是 高 阶 多 项 式 关 注 个 体 样 本 ， 而 不 是 捕获 数据 的 一 般 趋势 ( 参 见 图 2-10 中 的 六 次 多 项 
式 )。 这 意味 奥 克 姆 弟 刀 也 适用 于 回归 ， 并 且 当 精 注 调整 的 楼 到 复杂 达到 基础 数据 的 函 
数 的 复杂 度 时 ， 我 们 应 该 谨慎 行事 。 





x: 里 程 


图 2-10 拟 合 相同 数据 点 集 的 线性 、 二 次 和 六 次 多 项 式 。 最 高 阶 的 多 项 式 给 出 了 正确 的 拟 合 ,但 是 给 定 
更 多 数据 ， 真 实 的 曲线 很 可 能 不 是 这 种 形状 。 二 次 多 项 式 看 起 来 比 线 性 拟 合 好 ， 它 捕获 了 训练 
数据 的 走势 


2.7 模型 选择 与 泛 化 
我 们 用 从 实例 学 习 布 尔 函 数 作 为 开始 。 在 布尔 函数 中 ， 所 有 的 输入 和 输出 均 为 二 元 
的 。d 个 二 元 值 有 有 2" 种 可 能 的 写法 。 因 此 ， 对 于 d 个 输入 ， 训 练 集 最 多 有 2 个 样本 。 如 


表 2-1 所 示 ， 其 中 的 每 一 位 都 能 标记 为 0 或 1， 因 而 对 于 d 个 输入 ， 有 22 个 可 能 的 布尔 
函数 。 


表 2-1 2 个 输入 存在 4 种 可 能 的 情况 和 16 种 可 能 的 布尔 函数 


i eee 


0 0 0 
] 0 0 0 
0 0 ] ] 
] ] 0 ] 


一 个 不 同 的 训练 样本 都 会 去 掉 一 半 的 假设 ， 即 去 掉 那 些 猜 测 是 错 的 假设 。 例 如 ， 假 
EA x10, eo 二 1， 而 输出 为 0， 这 种 情况 就 去 掉 了 假设 s. hs. hs. hey ha. hu. his 
和 js。 这 是 解释 学 习 的 一 种 途径 : 随 着 我 们 看 到 更 多 的 训练 样 例 ， 我 们 逐步 去 掉 那 些 与 
训练 数据 不 一 致 的 假设 。 在 布尔 函数 的 情况 下 ， 为 了 最 终 得 到 单个 假设 ， 我 们 需要 看 到 所 
有 的 2 个 训练 样本 。 如 果 给 定 的 训练 集 只 包含 所 有 可 能 实例 的 一 个 小 的 子 集 ( 通 第 情况 就 
是 如 此 )， 也 就 是 说 ， 如 果 我 们 仅 对 少数 情况 知道 输出 应 该 是 什么 ， 则 解 不 是 唯一 的 。 看 
到 N 个 样本 后 ， 还 有 22 -NM 个 可 能 的 函数 。 这 是 一 个 不 适 定 问 题 (ill-posed problem), H} 
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仅 依 靠 数 据 本 身 不 足以 找到 唯一 解 。 

在 其 他 的 学 习 应 用 中 ， 在 分 类 、 回 归 中 也 存在 同样 的 问题 。 随 着 我 们 看 到 更 多 的 训练 
样本 ， 我 们 对 基础 函数 的 了 解 就 更 多 ， 并 且 我 们 从 假设 类 去 掉 更 多 不 一 致 的 假设 ， 但 是 我 
们 还 剩 下 许多 一 致 的 假设 。 

这 样 ， 由 于 学 习 是 一 个 不 适 定 问题 ， 并 且 单 靠 数据 本 有 身 不 足以 找到 解 ， 所 以 我 们 应 
该 做 一 些 特别 的 假设 ， 以 便 得 到 已 有 数据 的 唯一 解 。 我 们 所 做 的 为 了 使 得 学 习 成 为 可 能 
的 假设 集 称 为 学 习 算 法 的 归纳 偏 位 (inductive bias) 。 引 入 归纳 俩 倚 的 一 种 途径 是 假定 一 
个 假设 类 HH。 在 学 习 家 用 汽车 类 时 ， 存 在 着 无 限 种 将 正 例 与 负 例 分 开 的 方法 。 假 定 和 矩形 
形状 是 一 种 归纳 偏 倚 ， 那 么 具有 最 大 边缘 的 矩形 就 是 另 一 种 归纳 偶 傈 。 在 线性 回归 中 ， 
假定 线性 函数 是 一 种 归纳 偏 傈 ， 而 在 所 有 的 直线 中 选择 最 小 化 平方 误差 的 直线 是 另 一 种 
VA f f) o 

然而 ， 我 们 知道 ， 每 个 假设 类 都 有 一 定 的 能 力 ， 并 且 只 能 学 习 某 个 函数 。 使 用 具有 更 
大 能 力 、 包 含 更 复杂 假设 的 假设 类 ， 可 以 扩充 可 学 习 的 水 数 类 。 例 如 ， 假设 类 “两 个 矩形 
的 并 ”具有 更 大 的 能 力 ， 但 其 假设 也 更 复杂 。 类 似 地 ， 在 回归 分 析 中 ， 随 着 多 项 式 阶 的 增 
大 ， 其 能 力 和 复杂 度 也 不 断 增加 。 现 在 的 问题 是 决定 在 哪里 停止 。 

因此 ， 如 果 没 有 归纳 偏 倚 ， 学 习 将 是 不 可 能 的 ， 而 现在 的 问题 是 如 何 选择 正确 的 偶 
倚 。 该 问题 称 作 模型 选择 (model selection)， 即 在 可 能 的 模型 了 f 之 间 选 择 。 对 于 这 种 问题 
的 解答 ， 我 们 应 当 记 住 机 融 学 习 的 目标 很 少 是 复制 训练 数据 ， 而 是 预测 新 情况 。 也 就 是 
说 ， 我 们 希望 对 于 训练 集 之 外 的 输入 (其 正确 的 输出 并 没有 在 训练 集中 给 出 ) 能 够 产生 正确 
的 输出 。 训 练 集 上 训练 的 模型 如 何 能 够 对 新 的 实例 预测 出 正确 的 输出 称 为 泛 化 (generaliza- 
tion) 。 

对 于 最 好 的 泛 化 来 说 ， 我 们 应 当 使 假设 类 Hf 的 复杂 度 与 基础 数据 的 函数 的 复 洒 度 相 匹 
配 。 如 果 7Hf 没 有 了 苑 数 复杂 ， 例 如 ， 当 试图 用 直线 拟 合 从 三 次 多 项 式 抽取 的 数据 时 ， 则 是 欠 
拟 合 (underfitting)。 在 这 种 情况 下 ， 随 着 复杂 度 的 提高 ， 训 练 误差 降低 。 但 是 ,如果 太 
过 复杂 ， 数 据 不 足以 约束 该 假设 ， 则 我 们 最 后 可 能 得 到 不 好 的 假设 hE€ FH。 例 如， 当 用 两 
个 和 矩形 拟 合 从 一 个 矩形 抽取 的 数据 时 ， 这 种 情况 就 会 发 生 。 或 者 ， 如 果 存 在 品 声 ， 则 过 分 
于 复杂 的 假设 可 能 不 仅 学 习 基 础 函数 ,而且 也 学 习 数 据 中 的 噪声 ， 导 致 很 差 的 拟 合 。 例 
如 ， 用 六 次 多 项 式 拟 合 从 三 次 多 项 式 抽样 的 噪声 数据 时 ， 这 种 情况 就 会 发 生 。 这 称 为 过 拟 
合 (overfitting)。 在 这 种 情况 下 ， 拥 有 更 多 的 训练 数据 是 有 帮助 的 ， 但 是 只 能 在 某 种 程度 
上 有 和 帮助。 给 定 训 练 集 和 HH， 可 以 找到 最 小 化 训练 误差 的 hE€ 2c. (AH, WII o A 
好 ， 则 无 论 选 择 哪个 hE€ Hf 都 得 不 到 好 的 泛 化 。 

我 们 可 以 引用 三 元 权衡 (triple trade-off)(Dietterich 2003) 来 总 结 我 们 的 讨论 。 在 所 有 
的 由 样本 数据 训练 的 学 习 算 法 中 ， 存 在 以 下 3 种 因素 之 间 的 平衡 ; 

e i IB BI AE. BREW HET. 

e 训练 数据 的 总 量 。 

e 在 新 的 样本 上 的 泛 化 误差 。 

随 着 训练 数据 量 的 增加 ， 泛 化 误差 降低 。 随 着 模型 类 7 的 复杂 度 的 增加 ， 汉 化 误差 先 
降低 ， 然 后 开始 增加 。 过 于 复杂 的 的 泛 化 误差 可 以 通过 增加 训练 数据 的 总 量 来 控制 ， 但 
是 只 能 达到 一 定 程度 。 如 果 数 据 从 直线 抽样 并 且 拟 合 高 阶 多 项 式 ， 那 么 如 果 周 围 有 训练 数 
据 的 地 方 ， 则 拟 合 将 被 限制 在 该 直线 附近 ; 而 在 没有 训练 数据 的 地 方 ， 高 阶 多 项 式 的 行为 
可 能 难以 预测 。 
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如 果 我 们 访问 训练 集 以 外 的 数据 ， 则 我 们 就 能 够 度量 假设 的 泛 化 能 力 ， 即 它 的 归纳 偏 
倚 的 质量 。 我 们 通过 将 已 有 的 训练 集 划 分 为 两 部 分 来 模拟 这 一 过 程 。 我 们 使 用 一 部 分 来 做 
训练 ( 即 拟 合 一 个 假设 )， 而 剩 下 的 部 分 称 作 验证 集 (validation set)， 它 用 来 检验 假设 的 泛 
化 能 力 。 也 就 是 说 ， 给 定 可 能 的 假设 类 的 集合 H;， 对 于 每 一 个 集合 我 们 在 训练 集 上 拟 合 
最 佳 的 h;€ FH;。 假 定 训 练 集 和 验证 集 都 足够 大 ， 则 在 验证 集 上 最 准确 的 假设 就 是 最 好 的 
假设 ( 即 具有 最 佳 归 纳 偏 倚 的 假设 )。 这 一 过 程 称 为 交叉 验证 (cross-validation)。 例 如 ， 为 
了 找 出 多 项 式 回 归 的 正确 的 阶 ， 给 定 多 个 不 同 阶 的 候选 多 项 式 ， 其 中 不 同 阶 的 多 项 式 对 应 
于 不 同 的 4;， 我 们 在 训练 集 上 求 出 它们 系数 ,在 验证 集 上 计算 它们 误差 ， 并 取 具 有 最 小 
验证 误差 的 多 项 式 作为 最 佳 多 项 式 。 

注意 ， 如 果 需 要 报告 最 佳 模型 的 期 望 误 差 ， 就 不 应 该 使 用 验证 误差 。 我 们 已 经 使 用 验 
证 集 来 选择 最 佳 模 型 ， 并 且 它 实际 上 已 经 成 为 训练 集 的 一 部 分 。 我 们 需要 第 三 个 数据 
集 一 一 检验 集 (test set) 。 检 验 集 有 时 也 称 为 发 布 集 (publication set)， 它 包含 在 训练 或 验 
证 阶段 未 使 用 过 的 数据 。 现 实生 活 中 也 有 类 似 的 情况 ， 例 如 我 们 选修 一 门 课程 : 老师 在 讲 
授 一 门 课程 时 ,课堂 上 求解 的 例题 构成 了 训练 集 ， 考 试题 目 就 是 验证 集 ， 而 我 们 在 职业 生 
涯 中 解决 的 问题 则 是 检验 集 。 

我 们 也 不 能 一 直 使 用 相同 的 训练 和 验证 集 划 分 ， 因 为 一 旦 使 用 一 次 ， 验 证 集 就 实际 上 
成 为 训练 数据 的 一 部 分 。 这 就 像 老师 每 年 都 使 用 相同 的 考试 题 一 样 。 精 明 的 学 生 会 意识 到 
不 必 听 课 ， 仅 仅 记 住 这 些 问题 的 答案 即 可 。 

一 定 要 记 住 ， 我 们 使 用 的 训练 数据 是 一 个 随机 样本 。 也 就 是 说 ， 对 于 相同 的 应 用 ， 如 
果 我 们 多 次 收集 数据 ， 则 我 们 将 得 到 稍微 不 同 的 数据 集 ， 拟 合 的 h 也 稍微 不 同 ， 并且 具 有 
稍微 不 同 的 验证 误差 。 或 者 ， 如 果 我 们 把 固定 的 数据 集 划 分 成 训练 、 验 证 和 检验 集 ， 则 依 
赖 于 如 何 划 分 ,我们 会 有 不 同 的 误差 。 这 些 稍微 的 不 同 使 我 们 可 以 估计 多 大 的 差别 可 以 看 
作 显 著 的 (significant) 而 非 偶 然 的 。 也 就 是 说 ， 在 假设 类 FH, 和 7H; 之 间 进 行 选择 时 ， 我 们 
将 在 大 量 训 练 集 和 验证 集 上 多 次 使 用 它们 ， 并 且 检 查 h; 与 ;的 平均 误差 之 差 是 否 大 于 多 个 
h; 之 间 的 平均 差 。 在 第 19 章 ， 我 们 将 讨论 如 何 设计 机 器 学 习 实 验 ， 利 用 有 限 的 数据 来 回 
答 我 们 的 问题 (例如 ,“ 最 好 的 假设 类 是 哪个 ?”)， 以 及 如 何 分 析 实 验 结果 ， 使 得 我 们 可 以 
得 到 受 随机 性 影响 最 少 、 统 计 显著 的 结论 。 


2.8 ”监督 机 器 学 习 算 法 的 维 

现在 ， 让 我 们 来 总 结 和 归纳 上 述 要 点 。 我 们 有 样本 

= {yr (2-19) 

该 样本 是 独立 同 分 布 的 (independent and identically distributed, idd); 次 序 并 不 重要 ， 所 
有 的 实例 都 取 自 相同 的 联合 分 布 p(x，r)。t 指示 NN 个 实例 中 的 一 个 ，zx!' 是 任意 维 的 输 
和信 ， 而 7 是 相关 联 的 预期 输出 。 对 于 两 类 学 习 ，r 是 0/1; MF KCK SARK, rn 
一 个 K 维 二 元 向 量 ( 其 中 恰 有 一 维 为 1， 其 他 各 维 均 为 0); 在 回归 分 析 中 ，r 是 一 个 实 
数值 。 

我 们 的 目标 是 使 用 模型 g(x'109) 来 构建 一 个 x 的 好 的 、 有 用 的 近似 。 为 了 达到 预期 目 
标 ， 我 们 必须 做 出 3 个 决定 : 

1) 学 习 所 使 用 的 模型 (Model) ， 记 作 

gG |0) 

其 中 ，g(。) 是 模型 ，z 是 输入 ，0 是 参数 。 
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g og X X Sot. m 0 的 特定 值 实例 化 一 个 假设 hE€ HH。 例如 ， 在 类 的 学 习 中 ， 
我 们 把 矩形 当 作 模型 ， 其 4 个 坐标 值 构成 了 0。 在 线性 回归 中 ， 模 型 是 输入 的 线性 函数 ， 其 
斜率 和 截 距 是 从 数据 中 学 习 的 参数 。 模 型 (归纳 偏 傈 ) 或 红 由 机 器 学 习 系 统 的 设计 者 根据 其 应 
用 知识 背景 决定 ， 而 假设 h 由 学 习 算 法 利用 取样 于 p(x，7) 的 训练 集 进行 选择 (调整 参数 )。 

2) 损失 函数 (loss function)L(。) 计 算 期 望 输出 xr 与 9 近似 值 g (x’'|Q) 之 间 的 差 ( 给 定 
参数 0 的 当前 值 )。 近 似 误差 (approximation error) 或 损失 (loss) 是 各 个 实例 的 损失 之 和 


E(Q|X) = YL Or gtr [dy (2-20) 


在 输出 为 0/1 的 类 学 习 中 ，L(。) 检 测 相 等 或 不 相等 ; 在 回归 分 析 中 ， 由 于 输出 是 数 
值 ， 所 以 我 们 有 关于 距离 的 序 信 息 ， 而 一 种 可 能 性 是 使 用 差 的 平方 。 
3) 最 优化 过 程 (optimization procedure) 求 解 最 小 化 总 误差 的 0* 

ĝ* = arg minE (0| X) (2-21) 


其 中 ，arg min 返回 使 五 最 小 化 的 参数 值 。 在 多 项 式 回 归 中 ， 我 们 能 够 分 析 地 求解 最 优化 
问题 ， 但 并 不 总 是 这 种 情况 。 使 用 其 他 模型 和 误差 函数 ， 最 优化 问题 的 复杂 度 就 变 得 非常 
重要 。 我 们 特别 感 兴趣 的 是 ， 无 论 它 是 否 有 对 应 于 全 局 最 优 解 的 单个 最 小 ， 还 是 有 对 应 于 
局 部 最 优 解 的 多 个 最 小 。 

为 了 做 好 上 述 工作 ， 必 须 满足 以 下 条 件 : 第 一 ，8(，) 的 假设 类 应 当 足 够 大 ， 即 要 有 
足够 的 能 力 ， 能 够 包含 以 噪声 形式 产生 的 X 表 示 的 数据 的 未 知 函数 。 第 二 ， 必 须 有 足够 的 
训练 数据 ， 使 得 我 们 能 够 从 假设 类 中 识别 正确 (或 足够 好 ) 的 假设 。 第 三 ， 给 定 训练 数据 ， 
我 们 应 当 有 好 的 优化 方法 ， 以 便 找 出 正确 的 假设 。 

不 同 机 天 学 习 方法 之 间 的 区 别 或 者 在 于 它们 假设 的 模型 (假设 类 /归纳 偏 傈 ) 不 同 ， 或 
者 在 于 它们 所 使 用 的 损失 度量 不 同 ， 或 者 在 于 它们 所 使 用 的 最 优化 过 程 不 同 。 我 们 将 在 后 
续 的 章节 中 看 到 更 多 的 例子 。 


2.9 注释 


Mitchell 提出 了 解 空 间 和 候选 排除 算法 ， 使 得 当 样 本 实例 逐一 给 出 时 ， 可 以 增 量 地 构 
建 S 和 G; 近期 的 评述 可 参见 Mitchell 1997, 4BJE ^E 2] t E]. Mitchell 1997 的 习题 2. 4。 
Hirsh(1990) 讨 论 了 当 实 例 受 到 少量 噪声 影响 时 ， 如 何 处 理解 空间 。 

有 关机 需 学 习 最 早 的 研究 工作 之 一 是 Winston(1975) 提 出 的 “几乎 错过 ”(near miss) 思 
想 。 几 乎 错过 是 一 个 与 正 例 非常 相似 的 负 例 。 用 我 们 的 术语 ， 几 乎 错过 就 是 可 能 落 在 S 5 
G 之 间 灰 色 区 域 的 实例 ， 该 实例 将 会 影响 边缘 ， 因 而 相对 于 普通 的 正 例 和 负 例 来 说 ， 它 们 
对 学 习 可 能 更 有 用 。 靠 近 边 界 的 实例 是 定义 (或 支撑 ) 边 界 的 实例 ， 删 除 那些 被 许多 具有 相 
同 标号 包围 的 实例 不 会 影响 边界 。 

与 此 相关 的 思想 是 主动 学 习 (active learning) ， 其 中 学 习 算 法 能 够 自己 生成 实例 ， 并 请 
求 标记 它们 ， 而 不 是 被 动 地 被 给 定 (Angluin 1988) (参见 习题 4) 。 

VC 维 早 在 20 世纪 70 年 代 就 已 经 由 Vapnik 和 Chervonenkis 提出 ， 新 近 的 相关 资源 
是 Vapnik 1995， 其 中 他 指出 “没有 什么 比 好 的 理论 更 实用 ”。 像 在 其 他 科学 领域 一 样 ， 这 
在 机 器 学 习 领 域 也 得 到 了 证 实 。 你 不 必 急 于 使 用 计算 机 。 你 可 以 通过 思考 ,使 用 纸张 、 铅 
笔 ， 也 许 还 需要 橡皮 擦 之 类 的 东西 ， 市 省 目 己 的 时 间 ， 避 免 无 用 的 编程 。 

PAC 模型 由 Valiant(1984) 提 出 ， 学 习 和 矩形 的 PAC 分 析 来 自 Blumer 等 (1989)。 一 本 
涵盖 PAC 学 习 和 VC 维 的 计算 学 习 理 论 的 好 教材 是 Kearns 和 Vazirani 1994, 
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近年 来 ， 求 解 模型 拟 合 的 优化 问题 的 定义 正在 变 得 非常 重要 。 曾 经 我 们 对 从 某 随机 状 


态 开 始 收敛 于 最 近似 好 解 的 局 部 下 降 方法 感到 相当 满意 ， 现 在 我 们 对 证 明 问 题 是 凸 的 ( 存 
在 单个 全 局 解 ) 感 兴趣 (Boyd 和 Vandenberghe 2004)。 随 着 数据 集 规模 的 增 大 ， 模 型 变 得 
越 来 越 复杂 ， 我 们 还 对 优化 过 程 收敛 于 解 的 速度 感 兴趣 。 


i 
1. 


3. 


4. 


10 习题 


假定 假设 类 是 圆 而 不 是 矩形 。 参 数 是 什么 ”这 种 情况 下 ， 如 何 计 算 圆 假设 的 参数 ? 如 
果 是 椭圆 又 如 何 ?” 为 什么 用 椭圆 代替 圆 会 更 有 意义 ? 

f. 在 假设 类 是 圆 的 情况 下 ， 参 数 是 圆心 和 半径 (参见 图 2-11)。 然 后 ， 我 们 需要 
Rih SHG, EF S 是 包含 所 有 正 例 的 最 紧 竣 的 圆 ， 而 G 是 包含 所 有 正 例 而 不 包含 负 
例 的 最 大 的 圆 。 在 它们 之 间 的 任何 圆 都 是 相 容 的 假设 。 

使 用 椭圆 比 圆 更 有 意义 ， 因 为 两 个 轴 不 必 有 相同 的 尺度 ,并且 椭圆 有 两 个 参数 ， 
表示 两 个 轴 上 的 宽度 ， 而 不 是 一 个 半径 。 实 际 上 ， 价 格 与 发 动机 功率 是 正 相 关 的 。 汽 
车 的 价格 趋向 于 随 发 动机 功率 的 增加 而 增加 ， 因 此 使 用 倾斜 的 椭圆 更 有 意义 。 我 们 将 
在 第 5 章 看 到 这 样 的 模型 。 


. 设想 假设 类 不 是 一 个 矩形 而 是 两 个 (或 m 之 1 个) 算 形 的 联合 ， 请 问 这 种 假设 类 的 优点 是 


什么 ? 说 明 使 用 足够 大 的 mw， 任何 类 都 能 够 由 这 种 假设 类 表示 。 

解 : 当 只 有 一 个 矩形 时 ， 所 有 的 正 例 都 应 来 自 单个 分 组 ; 使 用 多 个 和 矩形， 例如 两 
个 矩形 (参见 图 2-12)， 正 例 可 以 在 输入 空间 形成 两 个 可 能 不 相交 的 徐 。 注 意 ， 每 个 矩 
形 对 应 于 两 个 输入 属性 上 的 合 取 ， 而 有 多 个 矩形 对 应 于 它们 的 析 取 。 EMEN AEN 
可 以 写成 合 取 的 析 取 。 在 最 坏 情况 下 (mm 王 N) 下 ， 每 个 正 例 都 有 单独 的 矩形 。 


发 动机 功率 


X2: 





Al 2-11 假设 类 是 圆 ， 有 两 个 参数 : 圆心 坐标 和 半径 图 2-12 假设 类 是 两 个 矩形 的 并 


在 许多 应 用 中 ， 错 误 的 决策 ( 即 假 正 和 假 负 ) 都 有 资金 成 本 ， 并 且 两 种 错误 的 成 本 可 能 
不 同 。S 和 G 之 间 的 h 的 位 置 与 这 两 者 的 相对 成 本 之 间 有 什么 联系 ? 

fe: 可 以 看 到 ，S 不 会 导致 假 正 ， 而 只 会 导致 假 负 。 类 似 地 ，G 不 会 导致 假 负 ， 而 
只 会 导致 假 正 。 因 此 ， 如 果 假 正 与 假 负 同样 不 好 ， 则 我 们 希望 4 在 S AG 的 中 间 ; 如 
FABIEN MAK, WA MARRIES; 如 果 假 负 的 成 本 更 大 ， 则 h 应 该 更 靠近 G。 
大 部 分 学 习 算 法 的 复杂 度 都 是 训练 集 的 函数 。 你 能 提出 一 个 发 现 元 余 实 例 的 过 滤 算 
法 吗 ? 

解 : 影响 假设 的 实例 是 那些 处 于 具有 不 同 标号 的 实例 附近 的 实例 。 各 个 方向 都 被 
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许多 正 例 包围 的 正 例 是 不 必要 的 ; 各 个 方向 都 被 许多 负 例 包围 的 负 例 也 是 不 必要 的 。 
在 第 8 章 ， 我 们 将 讨论 这 种 基于 近邻 的 方法 。 

5. 如 果 我 们 有 能 够 给 任何 实例 x 提供 标记 的 指导 者 ， 那 么 我 们 应 当 在 哪里 选择 x， 以 便 用 
较 少 的 询问 来 进行 学 习 ? 

f: 模糊 区 域 是 S 和 G 之 间 的 区 域 。 最 好 在 这 里 提问 ， 使 得 我 们 可 以 缩小 这 种 不 
确定 的 区 域 。 如 果 给 定 的 实例 为 正 ， 则 我 们 可 以 扩大 S 到 该 实例 ， 如 果 它 为 负 ， 则 我 
们 可 以 缩小 G 到 该 实例 

6. 在 式 (2-13) 中 ， 我 们 对 实际 值 与 估计 值 的 差 的 平方 求 和 。 该 误差 函数 是 一 种 使 用 最 频繁 
的 误差 图 数 ， 但 它 只 是 多 个 可 行 的 误差 图 数 之 一 。 由 于 它 对 差 的 平方 求 和 ， 所 以 它 对 
于 离 群 点 不 是 鲁 棒 的 。 为 了 实现 重 棒 回 归 (robust 
regression) ， 更 好 的 误差 图 数 是 什么 ? 

7. 请 推导 式 (2-17) 。 

8. 假定 假设 类 是 直线 的 集合 ， 并 且 利 用 直线 来 隔 开 
正 例 和 与 钠 例 ， 而 不 是 用 矩形 来 界定 正 例 ， 并 将 
负 例 留 在 矩形 外 (参见 图 2-13)。 证 明 直 线 的 VC 
HE 3. 

9. 证 明 在 二 维 空 间 中 ， 三 角形 假设 类 的 VC AED T. 
(提示 : 为 了 最 佳 隔 开 ， 最 好 在 某 个 圆 上 设置 7 个 
等 距离 的 点 ) 

10. 假定 像 习 题 8 那样 ， 假 设 类 是 直线 的 集合 。 写 一 图 2-13 直线 隔 开 正 例 与 负 例 
个 误差 图 数 ， 它 不 仅 最 小 化 误 分 类 数 ， 而 且 也 最 大 化 边缘 。 

11. 噪声 的 一 个 来 源 是 标号 错误 。 你 能 提出 一 种 方法 ， 找 出 很 可 能 是 误 标 记 的 数据 点 吗 ? 
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贝 叶 斯 决策 理论 





我 们 讨论 在 不 确定 情况 下 决策 的 概率 理论 框架 。 在 分 类 中 ， 贝 叶 斯 规则 用 来 计算 类 的 
概率 。 我 们 将 讨论 推广 到 怎样 做 出 合理 的 决策 以 最 小 化 期 望 风险 。 我 们 还 讨论 从 数据 中 学 
习 关 联 规则 。 


3.1 引言 


训练 计算 机 使 之 根据 数据 进行 推断 是 统计 学 和 计算 机 科学 的 交叉 领域 ， 其 中 统计 学 家 
提供 由 数据 做 推断 的 数学 框架 ， 而 计算 机 科学 家 研究 推断 方法 如 何在 计算 机 上 有 效 地 

数据 来 自 于 一 个 不 完全 清楚 的 过 程 。 将 该 过 程 作为 随机 过 程 建 模 表明 我 们 缺乏 知识 。 
也 许 该 过 程 实际 上 是 确定 性 的 ， 但 是 因为 我 们 没有 获取 关于 它 的 完全 知识 的 途径 ， 所 以 我 
们 把 它 作 为 一 个 随机 过 程 来 建 模 ， 并 且 用 概率 理论 来 分 析 它 。 此 时 ， 在 继续 阅读 本 章 之 前 
跳 到 附录 ， 温 习 基 本 的 概率 知识 也 许 是 一 个 好 主意 。 

投 硬 币 是 一 个 随机 的 过 程 ， 因 为 我 们 不 能 够 预测 任意 一 次 投 币 的 结果 是 正面 还 是 反面 
(这 就 是 为 什么 我 们 投 币 、 买 彩票 或 者 买 保险 的 原因 )。 我 们 只 能 谈论 下 一 次 投 币 是 正面 还 
是 反面 的 概率 。 有 证 据 显 示 ， 如 果 我 们 取得 一 些 额外 的 知识 ， 如 硬币 的 确切 成 分 、 它 的 最 
初 位 置 、 投 币 的 力量 和 投 币 的 方向 、 何 处 以 及 如 何 接 住 等 ， 则 投 币 的 准确 结果 就 是 可 以 预 
测 的 。 

我 们 不 能 获取 的 那些 额外 的 知识 称 为 不 可 观测 变量 (unobservable variable)。 在 投 币 
这 个 例子 中 ， 唯 一 可 观测 变量 (observable variable) 是 投 币 的 结果 。 用 z 表示 不 可 观测 的 变 
量 ， 工 表示 可 观测 的 变量 ， 事 实 上 我 们 有 

“c= fe) 
其 中 ，f(，) 是 一 个 确定 性 函数 ， 它 定义 知识 的 不 可 观测 部 分 的 输出 。 因 为 不 能 用 这 种 方 
式 对 该 过 程 建 模 ， 所 以 定义 输出 X 为 说 明 该 过 程 由 概率 分 布 P(X==x) 抽 取 的 随机 变量 。 

投 币 的 结果 是 正面 或 反面 ， 我 们 定义 一 个 随机 变量 ， 在 两 个 值 中 取 值 。 令 X=1 代表 
投 币 的 结果 是 正面 ，X=0 代表 投 币 结果 是 反面 。X 服从 伯 努 利 分 布 ， 其 中 分 布 参数 加 是 
投 币 结果 为 正面 的 概率 : 

P(X=1)=p,。 HE P(X=0)=1— P(X=1)=1— po 

假设 要 预测 下 一 次 投 币 的 结果 。 如 果 我 们 知道 po. M po 0.5 时 ， 预 测 将 是 正面 ， 
否则 是 反面 。 这 是 因为 ， 如 果 选 择 更 可 能 的 情况 ， 则 错误 的 概率 ， 即 1 减 去 选择 的 概率 ， 
将 会 最 小 。 如 果 这 是 一 个 po =0.5 的 公平 投 币 ， 则 没有 比 总 是 选择 正面 或 者 我 们 自己 做 公 
平 投 币 更 好 的 预测 手段 ! 

如 果 我 们 不 知道 PCX)， 并 且 想 从 给 定 的 样本 估计 它 ， 那 么 就 需要 统计 学 知识 。 我 们 
有 一 个 样本 X， 它 包含 由 可 观测 变量 zx’ 的 概率 分 布 ( 记 作 p(x)) 抽 取出 的 样本 。 目 的 是 使 
用 样本 Xx 构造 一 个 它 的 近似 P(x)。 

在 投 币 例子 中 ， 样 本 包含 了 N 次 投 币 的 结果 。 然 后 利用 X， 可 以 估计 p。。po 是 唯一 
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定义 该 分 布 的 参数 。 加 的 佑 计 是 


p 一 闪 { 结 果 为 正面 的 搓 币 } 
| SUNT) 


使 用 数值 随机 变量 ， 如 果 投 币 i 的 结果 是 正面 ， 则 x 为 1， 否 则 产 为 0。 给 定 样本 { 正 面 ， 
正面 ， 正 面 ， RM, EM, 反面， Rm. Em, Em}, Wx={1, 1, 1, 0, 1, 0, 0, 
Ls I 并 且 po 的 估计 是 | 





3.2 分 类 


在 1.2.2 节 中 ， 我 们 讨论 了 资信 评分 。 那 里 我 们 看 到 ， 根 据 过 去 的 交易 ， 银 行 的 某 些 
客户 是 低 风险 的 ， 因 为 他 们 还 清 了 贷款 并 且 银 行 从 他 们 那里 获 利 ; 其 他 客户 是 高 风险 的 ， 
因为 他 们 不 能 途 还 贷款 。 分 析 这 些 数 据 ， 我 们 想 学 习 “ 高 风险 客户 ?类 ， 使 得 未 来 有 新 的 贷 
天 申请 时 ， 我 们 可 以 检查 申请 者 是 否 符合 “高 风险 客户 ?类 的 描述 ， 并 据 此 决定 接受 还 是 拒 
绝 该 申请 。 使 用 关于 申请 的 知识 ， 我 们 假定 有 两 种 信息 是 可 观测 的 。 我 们 观测 它们 是 因为 
我 们 有 理由 相信 它们 为 我 们 提供 客户 的 资信 。 例 如 ， 假 定 我 们 观测 客户 年 收入 和 存款 ， 它 
们 分 别 用 随机 变量 X 和 X, 表 示 。 

可 以 断言 ， 如 果 我 们 能 够 获得 客户 的 其 他 知识 ， 比 如 关于 客户 经 济 状况 的 全 部 细节 和 
全 部 知识 、 他 的 意图 、 道 德 规范 等 ， 则 我 们 可 以 确定 性 地 计算 客户 是 “ 低 风险 客户 ”还 是 
“高 风险 客户 ”。 但 是 ， 这 些 是 不 可 观测 的 ， 而 使 用 我 们 能 够 观测 的 信息 ， 客 户 的 资信 可 以 
用 观测 条 件 和 ==LX; ，X;] 的 伯 努 利 随机 变量 C 表示 ， 其 中 C==1 表示 高 风险 客户 ，C=0 
表示 低 风 险 客户 。 这 样 ， 如 果 我 们 知道 P(C|X,, X), W|3j—^- X, =z, 4 X: = r: S 
申请 到 达 时 ， 我 们 可 以 

IC=1 3X PC —1|n 270.5 
ae 否则 
或 等 价 地 ， 
C=1 SOR POQC—1]|lz,55 PO —0| zi ree) 
选择 |C 一 s n (3-1) 

错误 的 概率 是 1 一 max(P(C=1 |zxi， Lz), P(C—0|z, Zzxz))。 这 个 例子 与 投 硬币 的 
例子 类 似 ， 只 是 伯 努 利 随 机 变量 C 是 在 两 个 其 他 观测 变量 条 件 下 的 随机 变量 。 我 们 用 x X 
示 观 测 变 量 的 向 量 x 王 Lzi，xzz] 。 于 是 ,问题 是 要 能 够 计算 PC(C|x)。 使 用 贝 叶 斯 规则 ， 
它 可 以 表示 为 
PGO sx |C) 

p(x) 

P(C 二 1) 称 为 C HUE 1 的 先 验 概 率 (prior probability)。 在 我 们 的 例子 中 ， 它 对 应 于 客 
户 是 高 风险 客户 的 概率 ， 而 不 管 x 取 什 么 值 一 一 它 是 高 风险 客户 所 占 的 比例 。 称 它 为 先 验 
概率 ， 因 为 它 是 我 们 看 到 观测 量 x 之 前 就 获得 的 关于 C 值 的 知识 ， 满 足 

P(C=0)+P(C=1) =1 

p(x1C) 称 为 类 似 然 (class likelihood), ÆR F C 的 事件 具有 相关 联 的 观测 值 x HAH 
概率 。 在 我 们 的 例子 中 ，z(z，zz |C= 二 1) 是 高 风险 客户 具有 Xi 一 zi 和 X;: 一 zz 的 概率 。 这 
就 是 通过 数据 我 们 得 到 的 关于 类 的 信息 。 


P(C|x) = (3-2) 
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p(x) ie (evidence), HA SIL] x 的 边缘 概率 ， 无 论 它 是 正 例 还 是 负 例 。 
p) 二 = plx|C = 1DPIC=D)+p|C=OPIC=0 (3-3) 
C 


使 用 贝 叶 斯 规则 ， 组 合 先 验 知识 和 数据 告诉 我 们 的 知识 ， 在 看 到 观测 x 之 后 ， 计 算 概 

念 的 后 验 概 率 (posterior probability) PCC|x)。 
I x AL oR 
由 于 证 据 规 范 化 ， 所 以 后 验 的 和 为 1: 
P(C=0|x)+ P(C =1|x) = 1 

一 旦 得 到 后 验 概率 ， 我 们 就 可 以 使 用 式 (3-1) 进 行 决 策 。 从 现在 起 ,假定 我 们 知道 先 
验 和 似 然 。 在 稍 后 的 章节 中 ， 我 们 讨论 如 何 从 训练 样本 估计 POA ple. 

在 一 般 情况 下 ， 我 们 有 K 个 互 上 斥 和 穷 举 的 类 C;(i 二 1，…，K)。 例如 ， 在 光学 数字 识 
别 中 ， 输 入 是 位 图 图 像 ， 有 10 个 类 。 先 验 概率 应 该 满足 : 


K 
P(CZO0 H —»PG)-—1 (3-4) 


当 已 知 x 属于 类 C, 时 ，p(x|1C,) 是 看 到 x 作为 输入 的 概率 。 类 CLUB EE 
如 下 ， 


_ bxlCDPCC) -pzlCDPC) | 


PCC, |x) (3-9) 


(x) 
p >) p(x |C,)PCC,) 
k=1 
而 为 了 最 小 化 误差 ， 贝 叶 斯 分 类 器 (Bayes'classifier) 选 择 具 有 最 高 后 验 概率 的 类 ， 即 
选择 C;， 如 果 PC, |x) = max P (C, |x) (3-6) 


3.3 损失 与 风险 


决策 的 好 坏 程度 或 代价 可 能 不 同 。 金 融 机 构 对 一 个 贷款 申请 人 做 出 决定 时 会 把 潜在 的 
收益 和 损失 考虑 在 内 。 接 受 一 个 低 风险 的 申请 人 会 增加 收益 ， 而 拒绝 一 个 高 风险 的 申请 人 
会 减 小 损失 。 错 误 地 接受 一 个 高 风险 的 申请 人 带 来 的 损失 与 错误 地 拒绝 一 个 低 风险 的 申请 
人 带 来 的 淤 在 收益 可 能 不 同 。 这 种 情况 在 其 他 领域 ， 如 在 医疗 诊断 、 地 震 预测 等 ， 显 得 更 
加 至 关 重 要 并 且 是 非常 不 对 称 的 。 

让 我 们 定义 动作 a; 为 把 输入 指派 到 类 C; 的 决策 ， 而 Xi 为 输入 实际 属于 Ci 时 采取 动作 
ai; 导 致 的 损失 (loss)。 于 是 ,采取 动作 w 带 来 的 期 望 风险 (expected risk) Æ 


K 
Ria; |x) = > A&P CO, [22 (3-7) 
并 且 我 们 选择 具有 最 小 风险 的 动作 : 
选择 ay 如果 R(a; |x) = minR (a, |x) (3-8) 


让 我 们 定义 K 个 动作 a;， i—1, +, K, KPa x 指派 到 C; 的 动作 。 在 0-1 损失 
(zero-one loss) 这 种 特殊 情况 下 ， 其 中 
s 0 如 采 ih 
i 1 如 有 果 i 关 上 
所 有 正确 的 决策 都 没有 损失 ， 并 且 所 有 错误 都 具有 相同 的 代价 。 采 取 动 作 w 的 风险 是 


K 
Ria [x)9 5 aPC, |x) 
k=] 


(3-9) 
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= +) PG, |x) 
= 1— P(C; |x) 
因为 XPG) 二 1。 因此 ,为 了 最 小 化 风险 ,我 们 选择 最 可 能 的 类 。 在 后 面 的 章节 中 ， 


为 了 简单 起 见 ， 我 们 一 直 假 定 这 种 情况 ,并且 选择 具有 最 高 后 验 的 类 ,但 是 注意 ， 这 确实 
是 一 种 特殊 情况 ， 并 且 很 少 应 用 具有 对 称 的 0-1 损失 。 在 一 般 情 况 下 ， 由 后 验 到 风险 并 且 
采取 将 风险 最 小 化 的 动作 是 一 种 简单 的 后 处 理 。 

在 一 些 应 用 中 ， 错 误 的 决策 ( 即 误 分 类 ) 也 许 会 有 很 高 的 代价 。 在 一 般 情 况 下 ， 如 果 目 
动 系统 对 它 的 决策 具有 很 低 的 确定 性 ， 则 需要 更 复杂 的 (例如 ， 人 工 的 ) 决 策 。 例 如 ， 如 果 
我 们 使 用 光学 数字 识别 器 来 读 取 信封 上 的 邮编 号 码 ， 则 错误 地 识别 邮政 编码 将 导致 信件 被 
发 送 到 一 个 错误 的 目的 地 。 

在 这 种 情况 下 ， 我 们 定义 一 个 附加 的 拒绝 (Creject) 或 疑惑 (doubt) 动 作 aiis M a; Ci = 
1，…，K) 是 在 类 C;(i 二 1，…，K) 上 的 通常 的 决策 动作 (Duda，Hart 和 Stork 2001). 


一 个 可 能 的 损失 函数 是 
0 mRi=k 
u= 如 果 i =K+1 (3-10) 
1 否则 
其 中 O<A<1 是 选择 第 (K 十 1) 个 拒绝 动作 导致 的 损失 。 拒 绝 的 风险 是 
Rlar |x) = JAP lG |x) =A (3-11) 
且 选 择 类 C; 的 风险 是 
Ria |x) = SOP CG, |e) = I— PCC, |x) (3-12) 
最 优 决策 规则 是 


选择 C; 如 果 对 于 所 有 的 有关 i, 有 Rea; |x) << Ra |x) 且 
R(Co; |x) < Rlagun |x) 
拒绝 wR R(aka |x) < Rla;|x),i = l,e K (3-13) 
给 定式 (3-10) 的 损失 函数 ， 上 式 可 以 简化 为 
HEC, 如果 对 于 所 有 的 上 & 关 i, 有 P(C |x) > PC |x), E 
P(C;|x) >1—a 
拒绝 否则 (3-14) 
当 0 二 4 过 1 时 ， 这 个 方法 是 有 意义 的 : 4150 时 ， 总 是 拒绝 ; 拒绝 和 正确 的 分 类 是 
同样 好 的 。 当 X 宇 1 时 ， 我 们 从 不 拒绝 ;拒绝 与 错误 的 代价 相同 甚至 超过 错误 的 代价 。 
在 拒绝 的 情况 下 ， 我 们 在 通过 计算 机 程序 自动 决策 和 通过 开销 更 大 但 正确 概率 更 高 的 
人 工 决 策 之 间 选 择 。 类 似 地 ， 我 们 可 以 想象 多 个 自动 决策 的 级 联 ， 尽 管 这 样 做 开销 更 大 ， 
但 是 正确 的 可 能 性 更 大 。 我 们 将 在 第 17 章 讨 论 组 合 多 个 学 习 器 时 讨论 这 种 级 联 。 


3.4 FLAN BR 


分 类 也 可 以 看 作 实 现 一 组 判别 式 函 数 (discriminant function) g;(x) i=1, «+, K) {4 
我 们 
KC, 如 果 gi(x) 一 maxge(x) (3-15) 
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A 
g:(x) =— Ra; |x) 
我 们 可 以 重新 给 出 贝 叶 斯 分 类 器 ， 下 于 最 小 化 条 件 风 险 。 当 我 们 使 
用 0-1 HR RKA, RIA 
zx) = PCC, lx) 
或 者 忽略 公共 规范 化 项 p(x)， 可 以 写 为 
本 | 
这 把 特征 空间 划分 成 K 个 决策 区 域 (decision y, 
region) Ri» ts Re» HAR; — { (x |g; (x) = max 


gi(X)}。 这 些 区 域 被 决策 边界 (decision bound- 
ary)， 即 特征 空间 中 的 曲面 分开， 其 中 平局 
出 现在 最 大 判别 孔 数 之 间 ( 参 见 图 3-1). 
当 有 两 个 类 时 ， 可 以 定义 单个 判别 式 
g(x) = gy (xe) — gi (g) 
并 且 我 们 
| C; wk g(x) >0 
ae 
一 个 例子 是 两 类 学 习 问 题 ， 其 中 正 例 可 以 
表示 为 a! cence C;, M K=2 hf; FR 





系统 是 一 分 器 (dichotomizer)， 当 天 之 3 
Hl. 到 是 一 e T 2s (polychotomizer) , 图 3-1 决策 区 域 和 决策 边界 的 例子 
3.5 关联 规则 


关联 规则 (association rule) 是 形 如 X—Y 的 
蕴涵 式 ， 其 中 XX 是 规则 的 前 件 (antecedent)， 而 Y 是 规则 的 后 件 (consequent)。 关 联 规则 
的 一 iq 分 析 (basket analysis) ， 通 过 购物 篮 分 析 ， 我 们 和 希望 发 现 项 X MY 之 
间 的 依赖 性 。 典型 的 应 用 是 零售 ， 其 中 X 和 YY 是 销售 的 商品 (参见 1. 2. 1 5). 

a6 3 ERR 通常 需要 计算 3 个 度量 : 

e 关联 规则 X->Y Bj X44 HB (support); 


"" EIUS X X fo Y 的 顾客 ) : 
Support( X,Y) = P(X,Y) rT). 2 —— (3-16) 


e 关联 规则 X—Y B 3:48 Æ (confidence): 
Confidence(X = Y) = PX |Y) = POG = HME X fe Y NMS) (uo 





P(X) S US X X 的 顾客 } 
e 关联 规则 X->Y 的 提升 度 (lift)， 又 称 为 兴趣 度 (interest) : 


P(X,Y) _ P(Y|X) 
POOPQ) PY) 


还 有 其 他 度量 (Omiecinski 2003), 但 是 这 三 种 ， 特 别 是 前 两 种 被 广泛 认识 和 使 用 。 置 

信 度 是 我 们 通常 计算 的 条 件 概率 PCY|X)。 为 了 能 够 说 该 规则 具有 足够 的 置信 和 度 ， 它 的 值 
应 该 接近 1， 并 且 显 车 大 于 人 们 购买 了 的 总 概率 忆 (Y)。 我 们 也 对 最 大 化 规则 的 支持 度 感 
兴趣 ， 因 为 即使 有 一 个 强 置 信 度 的 依赖 和 关系， 但 是 如 果 这 样 的 顾客 数量 很 小 ， 那 么 该 规 


Lift(X — Y) = (3-18) 
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则 也 是 没有 价值 的 。 支 持 度 说 明 规 则 的 统计 显著 性 ， 而 置信 度 说 明 规 则 的 强度 。 最 小 支 
持 度 和 最 小 置信 和 度 值 由 公司 设 定 ， 并 从 数据 库 中 搜索 具有 更 高 支持 度 和 置信 度 的 所 有 
规则 。 

如 果 X MY 是 独立 的 ， 则 我 们 期 望 提 升 度 接 近 1; 如 果 该 比率 的 分 子 与 分 母 不 同 ， 即 
如 果 PCY|X) 与 PCY) 不 同 ， 则 我 们 期 望 这 两 个 项 之 间 存 在 依赖 性 : 如 果 提 升 度 大 于 1, 
则 我 们 可 以 说 X 使 得 了 更 可 能 出 现 ;， 如 果 提 升 度 小 于 1， 则 X 使 得 Y 更 不 可 能 出 现 。 

这 些 公 式 可 以 很 容易 推广 到 多 于 两 项 。 例如，{X，Y，2Z} 是 一 个 3 项 集 ， 我 们 可 以 
RE X, ZY 这 样 的 规则 ， 即 P(Y|X，2Z)。 我 们 感 兴趣 的 是 找 出 具有 足够 高 的 支持 
度 和 置信 和 度 的 所 有 规则 ， 并 且 由 于 销售 数据 库 一 般 非常 大 ， 所 以 我 们 希望 通过 少数 几 遍 
数据 库 扫 描 找 出 它们 。 有 一 个 有 效 的 算法 ， 称 作 Apriori 算法 (Agrawal 等 1996) ， 来 做 
这 项 工作 。 该 算法 分 为 两 步 : (1) 找 出 频繁 项 集 ， 即 找 出 具有 足够 支持 度 的 项 集 ; (2) 通 
过 把 频繁 项 集 划 分 成 两 个 子 集 ， 分 别 作为 前 件 和 后 件 ， 把 频繁 项 集 转换 成 具有 足够 置信 
度 的 规则 。 

1) 为 了 快速 找 出 频繁 项 集 ( 而 不 完全 枚 举 项 的 所 有 可 能 的 子 集 )，Apriori 算法 利用 如 
下 事实 : {X，Y，2Z)} 要 成 为 频繁 的 (具有 足够 的 支持 度 )， 它 的 所 有 子 集 {X，Y)、!{( 和 X，2) 
和 {Y，Z} 也 都 应 该 是 频繁 的 一 一 添加 另 一 个 项 不 会 提高 支持 度 。 这 就 是 说 ,我 们 只 需要 
检查 其 2 项 子 集 都 是 频繁 的 3 项 集 。 换 句 话 说 ， 如 果 知 道 一 个 2 项 集 不 是 频繁 的 ， 则 可 以 
REN ATA BE AD ee EMT. 

我 们 从 找 出 频繁 1 项 集 开 始 ， 并 在 每 一 步 ， 以 归纳 的 方式 由 频繁 & 项 集 产 生 候 选 & 十 1 
项 集 ， 然 后 扫描 数据 来 检查 它们 是 否 具 有 足够 的 支持 度 。 为 了 方便 访问 ，Apriori 算法 把 
频繁 项 集 存放 在 一 个 散 列 表 中 。 注 意 ， 随 着 上 的 增加 ， 候 选项 集 的 个 数 将 迅速 减少 。 如 果 
最 长 的 频繁 项 集 包 含 n 个 项 ， 则 总 共 需 要 扫描 数据 ntl 次 。 

2) 一 旦 找到 了 频繁 & 项 集 ， 就 需要 把 项 集 划 分 成 两 个 子 集 ， 分别 作为 前 件 和 后 
件 ， 把 它 转换 成 规则 。 与 产生 频繁 项 集 所 做 的 一 样 ， 我 们 从 单项 为 后 件 、& 一 1 个 项 为 
前 件 开始 。 对 于 所 有 可 能 的 单项 后 件 规则 ， 检 查 它 是 否 具 有 足够 的 置信 和 度 ， 如 果 没 有 就 
删除 它 。 

注意 ， 对 于 相同 的 项 集 ， 可 能 有 多 个 以 不 同 的 子 集 为 前 和 后 件 的 规则 。 然 后 ， 我 们 检 
查 是 否 可 以 把 一 项 从 前 件 移 到 后 件 。 后 件 中 具有 更 多 项 的 规则 更 特殊 、 更 有 用 。 这 里 ,与 
频繁 项 集 产生 一 样 ， 我 们 利用 如 下 事实 : 为 了 得 到 一 个 后 件 中 有 两 项 且 具 有 足够 置信 度 的 
规则 ， 具 有 单项 后 件 的 两 个 规则 本 身 都 应 该 具有 足够 的 置信 和 度 。 也 就 是 说 ， 从 单项 后 件 规 
则 到 两 项 后 件 规则 不 需要 检查 所 有 可 能 的 两 项 后 件 ( 见 习题 9) 。 

应 该 记 住 ， 规 则 X—Y 不 必 列 含 因 果 关 系 ， 而 只 是 一 种 关联 。 在 一 个 问题 中 ， 可 能 还 
有 一 些 隐藏 变量 ， 它 们 的 值 不 能 通过 证 据 知 道 。 使 用 隐藏 变量 的 优点 是 可 以 更 容易 定义 依 
赖 结构 。 例 如 ， 在 购物 篮 分 析 中 ， 我 们 知道 “婴儿 食品 ”“ 尿 不 湿 2” 和 “牛奶 ?之 间 的 依赖 
性 ， 因 为 购买 其 中 一 种 商品 的 顾客 多 半 会 买 另 外 两 种 。 取 代表 示 着 三 者 之 间 的 依赖 性 ， 可 
以 指定 一 个 隐藏 变量 “家 有 婴儿 ”作为 这 三 种 商品 消费 的 隐藏 原因 。 我 们 将 在 第 14 章 讨论 
的 图 模型 使 我 们 可 以 表示 这 种 隐藏 变量 。 当 存在 隐藏 节点 时 ， 它 们 的 值 由 观测 节点 的 值 估 
tt AS A 
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3.6 注释 


在 不 确定 性 条 件 下 进行 决策 已 经 有 很 长 的 历史 ， 并 且 人 类 一 直 在 探索 各 种 陌生 领域 ， 
寻找 证 据 来 排除 不 确定 性 : 例如 天 体 、 水 晶 球 和 荐 啡 杯 。 使 用 概率 论 ， 从 有 意义 的 证 据 进 
行 推理 仅 有 几 百 年 的 历史 。 关 于 概率 和 统计 学 的 历史 ， 以 及 拉 普 拉 斯 、 伯 努 利 和 创建 该 理 
论 的 其 他 学 者 的 一 些 早 期 论文 请 参见 Newman 1988, 

Russell 和 Norving(1995) 给 出 了 效用 理论 和 信息 值 的 很 好 讨论 ， 还 用 货币 术语 讨论 了 
效用 分 配 。Shafer 和 Pearl 1986 是 不 确定 性 条 件 下 推理 的 早期 论文 集 。 

关联 规则 成 功 地 用 在 许多 数据 挖掘 应 用 中 ， 并 且 我 们 在 许多 网 站 上 都 看 到 用 这 样 的 规 
则 来 推荐 书籍 、 电 影 、 音 乐 等 。 算 法 很 简单 ， 但 是 在 大 型 数据 库 上 的 有 效 实 现 非 常 重要 
(Zhang 和 Zhang 2002, Li 2006), 。 稍 后 ， 在 第 14 章 我 们 将 看 到 图 模型 如 何 把 关联 规则 推 
广 到 非 二 元 的 情况 ， 那 里 关联 可 以 有 不 同 的 类 型 ， 也 允许 有 隐藏 变量 。 

推荐 系统 (recommendation system) 正 在 迅速 成 为 机 需 学 习 的 主要 应 用 领域 之 一 。 许 
多 零售 业 都 对 使 用 过 去 的 销售 数据 来 预测 未 来 的 顾客 行为 很 感 兴趣 。 我 们 可 以 把 这 种 数据 
看 作 一 个 和 矩阵， 其 中 行 是 顾客 ， 列 是 商品 ， 而 矩阵 元 素 是 购买 量 或 是 顾客 的 评级 。 通 常 ， 
这 个 和 矩阵 非常 大 ， 也 非常 稀疏 大 部 分 顾客 都 只 购买 了 可 能 商品 的 很 少 一 部 分 。 尽 管 该 
矩阵 非常 大 ， 但 是 它 的 秩 很 低 。 这 是 因为 数据 中 存在 大 量 的 依赖 性 。 人 们 不 会 随机 购物 。 
例如 ， 有 和 孩子 的 人 会 买 一 些 类 似 的 东西 。 某 些 产品 总 是 同时 购买 ， 或 从 来 都 不 一 起 购买 。 
正 是 这 类 规律 ， 少 量 隐藏 因素 ， 使 得 矩阵 的 秩 很 低 。 在 第 6 章 ， 当 我 们 讨论 维度 归 约 时 ， 
我 们 将 会 看 到 如 何 从 数据 中 提取 这 种 隐藏 因子 或 依赖 性 。 


3.7 JA 


1. 假定 某 种 疾病 很 稀少 ， 每 100 万 人 只 有 一 人 患 病 。 还 假定 有 一 种 化 验 很 有 效 ， 如 果 一 个 
人 患 此 疾病 ， 则 化 验 结 果 为 阳性 的 可 能 性 为 99% 。 然 而 ， 这 种 化 验 是 不 完美 的 ， 在 健 
康 人 身上 化 验 结果 为 阳性 的 可 能 性 是 1/1000。 假 定 来 了 一 位 新 患者 ， 其 化 验 结果 为 阳 
性 。 该 患者 患 此 疾病 的 概率 有 多 大 ? 

fü: 设 该 疾病 用 d 表示 ， 化 验 结果 用 t 表示 。 我 们 有 : P(d=1)= 二 10“,， PG— 
1|d=1)=0.99, PG—1|d—0)—10^?, RITÆRK H P(d=1|t=1). 
使 用 贝 叶 斯 规则 : 


Pid —1]£-—3232— 





P@=1|d=1)P(d=1) 
Pte = 1) 

_ P(t —1|d = 1)P(d = 1) 

Pte 1-1 GG = 194+ Pa = 1 ld = OP Cd = 0) 
_ 0. 99 - 10° 
0.99+10°+10°% - (1— 10?) 
也 就 是 说 ， 知 道 化 验 结果 为 正 把 患 病 概率 从 1/1 000 000 提高 到 1/1000, 

2. 在 两 类 问题 中 ， 似 然 比 (likelihood ratio) 是 

p(x|C,) 

pO Cs) 


— 0. 000 989 02 





请 用 似 然 比 写 出 判别 式 函 数 。 
解 : 我 们 可 以 定义 判别 式 函 数 为 
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_ PCC, |x i C, wk glx) >1 
gla) = Pax Hit C, EN 
我 们 可 以 把 该 判别 式 写 成 似 然 比 与 先 验 比 乘 积 的 形式 : 
g(x) = p(z |C) pC) 








p(x|Cz) pC) 
如 果 先 验 相 等 ， 则 该 判别 式 就 是 似 然 比 。 


. 在 两 类 问题 中 ， 对 数 几 率 (log odd) 定 义 为 











io PCC, |x) 
S PG, |X) 
WRT BL 553 d Fl 1] SK ER EC 
ft. 我 们 定义 判别 式 函 数 为 
P(C, |x) C, wk g(x) > 1 
gG) = log SG |a) 557 C, Fill 
对 数 几 率 是 似 然 比 的 对 数 与 先 验 比 的 对 数 之 和 : 
p(x|C,) PCC,) 
g(x) = log salai ^08 PC) 


如 果 先 验 相 等 ， 则 判别 式 就 是 对 数 似 然 比 。 


. 在 两 类 、 两 动作 问题 中 ， 如 果 损 失 函 数 是 Ain =Aw=0, Aw=10, hz 二 5， 写 出 最 佳 决策 


规则 。 如 果 我 们 增加 以 损失 A= 二 1 的 第 三 个 拒绝 动作 ， 那 么 规则 如 何 变 化 ? 
解 : 损失 表 如 下 : 





我 们 计算 两 个 动作 的 期 望 损失 : 
Ra; l£) = 0+ PCC, |x) +10 « PCC, |z) = 10+ (1 — PCE, | x)) 
R(a@ |x) = 5* P(C |x) +0 « PCC,|2) = 5 * PCC, |x) 
选择 as WR 
R(ai |x) < Raz | x) 
10 » (1 — P(E, 1x)» <5 » PCC, |z) 
P(E, |z) > 2/3 
WR PPR TR ATR OP AB IS], MAR EMA 1/2 处 ， 但 是 因为 错误 地 选择 Ci 的 代 
价 更 高 ， 所 以 仅 当 我 们 实际 上 确定 时 我 们 才 想 选择 C. BULA 3-2a 和 b. ETT 
加 一 个 代价 为 1 的 拒绝 选项 ， 则 损失 表 变 成 





我 们 计算 3 个 动作 的 期 望 风险 : 


Ret Ap ARR E 


p (Cix) 


p (Cix) 


P (Cx) 
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Ra, |x) = 0» PCC, |2)+10+ PCC |z) = 10+ (1— PCC, | 22) 
Rez lx) = 5 PCC, |x) +0 + PCC, |x) = 5° PCC, |£) 


x 
c) 有 拒绝 选项 时 ， 围 绕 边 界 的 区 域 是 拒绝 区 域 


3-2 边界 随 误 分 类 损失 改变 而 改变 


选择 qs 如 果 


Ra | x)<1>P(C, | x)>9/10 


选择 Q2 9 如 果 


定 4? 





Ra |z)<1>P(C, |z)<1/5, 或 等 价 地 ，P(Ci |x)>4/5 
否则 ， 我 们 拒绝 ; 也 就 是 ， 如 果 1/5< PC, |xz) 二 9/10， 则 拒绝 ; 参见 图 3-2c。 
. 提出 一 种 三 级 级 联 ， 当 某 一 级 拒绝 时 像 式 (3-10) 那 样 使 用 下 一 级 。 如 何在 不 同 级 设 


. 某 人 做 公平 投 币 ， 如 果 结 果 是 正面 ， 则 你 什么 得 不 到 ， 否 则 你 会 得 到 $5。 玩 这 样 的 游 
戏 你 愿意 支付 多 少 钱 ? 如 果 赢 $500 而 不 是 $5 又 如 何 ? 
. 给 定 商店 如 下 的 事务 数据 ， 计 算 牛 奶 一 香 攻 、 香 区 一 牛奶 、 牛 奶 一 巧克力 、 巧 元 力 一 
牛奶 的 支持 度 和 置信 和 度 值 。 


事务 
1 
2 
3 


405. BR. 13357] 
“5. T và 7] 
Hm, FRR 


购物 篮 中 商品 
巧克力 
Tj yi J] 
牛奶 、 巧 克 力 
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解 : PUI AR: 支持 度 一 2/6， 置 信和 度 王 2/4 
AUTE. 文 持 度 二 2/6， 置 信和 度 = 二 2/2 
牛奶 一 巧克力 : 支持 度 王 3/6， 置 信和 度 一 3/4 
753,7] F3): 支持 度 一 3/6， 置 信和 度 一 3/5 
尽管 买 牛奶 的 人 只 有 一 半 也 买 了 香蕉 ， 但 是 买 了 香 莹 的 人 都 买 了 牛奶 。 
8. 推广 购物 篮 分 析 的 置信 度 和 支持 度 公 式 ， 计 算 RE, PCY |X1, oe, XO. 


9. 证 明 : 把 一 个 项 由 前 件 移 到 后 件 置 信和 度 不 会 增加 :， confidence (ABC—> D) Z confidence 


(AB—>CD), 
10. 在 购物 篮 分 析 中 ， 如 果 对 于 每 件 售 出 的 商品 我 们 还 有 一 个 数 ， 它 指出 顾客 喜爱 该 商品 

的 程度 ， 例 如 ， 在 0 一 10 内 ， 如 何 利用 这 一 附加 信息 把 哪 种 商品 推荐 给 一 个 客户 ? 
11. 给 出 事务 数据 的 例子 ， 其 中 对 于 规则 XY, 

(a) 支持 度 和 置信 和 度 都 高 。 

Cb) 支持 度 高 而 置信 和 度 低 。 

Cc) 支持 度 低 而 置信 和 度 高 。 

(d) 支持 度 和 置信 和 度 都 低 。 
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参数 方法 





前 面 ， 我 们 讨论 了 在 使 用 概率 对 不 确定 性 建 模 时 ， 如 何 做 出 最 优 决策 。 现 在 ， 考 虑 如 
何 从 给 定 的 训练 集 佑 计 这 些 概率 。 我 们 从 分 类 和 回归 的 参数 方法 开始 。 在 后 面 的 章节 中 ， 
将 讨论 半 参 数 和 非 参 数 方法 。 我 们 介绍 用 于 权衡 模型 复杂 度 和 经 验 误差 的 偏 倚 / 方 差 两 难 
选择 和 模型 选择 方法 。 


4.1 引言 


统计 量 (statistic) 是 从 给 定 样 本 中 计算 的 任何 值 。 在 统计 推断 中 ， 使 用 样本 提供 的 信 
县 进行 决策 。 第 一 种 方法 是 参数 方法 ， 这 里 假设 样本 取 自 服从 已 知 模型 的 某 个 分 布 ， 例 如 
高 斯 分 布 。 参 数 方 法 的 优点 是 ， 模 型 定义 在 少量 参数 (例如 ， 均 值 、 方 差 )， 分布 的 有 效 统 
计量 (sufficient statistics) 上 。 一 旦 从 样本 中 估计 出 这 些 参 数 ， 就 知道 了 整个 分 布 。 我 们 从 
给 定 的 样本 估计 分 布 的 参数 ， 把 这 些 估计 放 到 假设 的 模型 中 ， 并 得 到 估计 的 分 布 ， 然 后 使 
用 它 进行 决策 。 我 们 用 来 估计 分 布 参 数 的 方法 是 最 大 似 然 估计 。 我 们 还 讨论 贝 叶 斯 估计 ， 
这 将 在 第 16 章 继续 讨论 。 

我 们 从 密度 估计 (density estimation) 开 始 。 密 度 估计 是 估计 p(xz) 的 一 般 情 况 。 我 们 使 
用 估计 的 密度 进行 分 类 ， 其 中 估计 的 密度 是 能 够 计算 后 验 概率 P(C;|z) 并 做 决策 的 类 密度 
p(x|Ci;) 和 先 验 P(C;)。 然 后 ， 我 们 讨论 回归 ， 其 中 估计 的 密度 是 p(y|z)。 本 章 ，x 是 一 
维 的 ， 因 此 密度 是 一 元 的 。 在 第 5 XE. 我们 将 推广 到 多 元 情况 。 


4.2 最 大 似 然 估计 


假定 我 们 有 一 个 独立 同 分 布 iid) 样 本 X= 二 {x') 六 1 。 人 假设 xz' 是 从 某 个 定义 在 参数 9 上 的 
已 知 概率 密度 族 p(x10) 中 抽取 的 实例 : 
x ~ pG |0) 
我 们 希望 找 出 这 样 的 909， 使 得 x' 尽 可 能 像 是 从 p(z19) 抽 取 的 。 因 为 x' 是 独立 的 ， 所 以 
给 定 参数 9， 样 本 Xx 的 似 然 (likelihood) 是 单个 点 似 然 的 乘积 : 


N 
OIX) = p(x|0) = [Loc |o (4-1) 
t=1 


在 最 大 似 然 估计 (maximum likelihood estimation) 中， 我 们 感 兴 趣 的 是 找到 这 样 的 9， 
使 得 XxX 最 像 是 抽取 的 。 因 此 ， 我 们 寻找 最 大 化 样本 似 然 的 9， 该 似 然 记 作 1(9|X)。 我 们 可 
以 最 大 化 该 似 然 的 对 数 ， 而 不 改变 它 取 最 大 值 的 数值 。log(，) 把 乘积 转换 为 求 和 和 ， 并 且 
当 假 定 某 种 密度 (例如 ， 包 含 指数 ) 时 进一步 简化 计算 量 。 对 数 似 然 (log likelihood) 定 义 为 


N 
LIX) = logi |x) = >) logp(2' |0) (4-2) 
t=1 


现在 ， 让 我 们 来 看 看 我 们 感 兴趣 的 实际 应 用 中 出 现 的 一 些 分 布 。 如 果 我 们 有 两 类 问 
题 ， 我 们 就 使 用 伯 努 利 分 布 。 当 存在 K>2 个 类 时 ， 分 布 扩 广 为 多 项 式 分 布 。 高 斯 ( 正 态 ) 
密度 是 最 常用 来 对 具有 数值 输入 的 类 条 件 密度 建 模 的 密度 之 一 。 对 于 这 三 种 分 布 ， 我 们 讨 
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论 它 们 参数 的 最 大 似 然 估计 (MLE) 方 法 。 


4.2.1 伯 努 利 密度 


在 伯 努 利 分 布 中 ， 有 两 个 结果 : 事件 要 么 发 生 ， 要 人 么 不 发 生 。 例 如 ， 实 例 是 类 的 正 
例 ， 或 者 不 是 。 事 件 发 生 ， 伯 努 利 随机 变量 X 以 概率 p 取 值 1， 事件 不 发 生 的 概率 为 1 一 
力 ， 并 用 X Bull 0 表示 。 这 表示 为 : 

P(x) = p71 — p) x € (0,1) (4-3) 

期 望 值 和 方差 可 以 用 下 式 计 算 : 

E[X]— D)zp(2) =1+p+0-(—p)=p 


Var(X) = > G — ELX] pl) = p(1— p) 


p EEKE, FFA EMI Ard EAR X — (cmo HP ce {0, 1), 希望 计算 
p 的 估计 六 。 对 数 似 然 是 


N 
I3) = log | | p” (1 — p) = jx‘ logp + (N= jz! )log = 5) 
t=1 t t 


通过 求解 dL/dp 二 0， 可 以 找 出 最 大 化 该 对 数 似 然 的 2。p 上 的 带 帽 表示 它 是 bp 的 一 个 

估计。 
27 

p= N (4-4) 

p 的 估计 是 事件 发 生 的 次 数 与 试验 次 数 的 比值 。 记 住 ， 如 果 X 是 参数 为 p 的 伯 努 利 变 
量 ， 则 ELXj] 二 zp， 并 且 作 为 期 望 ， 均 值 的 最 大 似 然 估计 是 样本 的 平均 值 。 

注意 ， 该 估计 是 样本 的 函数 ， 并 且 也 是 一 个 随机 变量 。 给 定 从 相同 的 p(xz) 中 抽取 的 
不 同 的 X ， 我 们 可 以 谈论 记 Wat. Dun. WEA 的 分 布 的 方差 随 N 增加 而 减少 ; 随 着 
样本 增 大 ， 它 们 (从 而 它们 的 平均 值 ) 变 得 更 相似 。 





4.2.2 多 项 式 密度 
考虑 伯 努 利 分 布 的 推广 ， 其 中 随机 事件 的 结果 不 是 两 种 状态 ， 而 是 K 种 互 斥 、 穷 举 
状态 之 一 (例如 ， 类 )， 每 种 状态 出 现 的 概率 为 po WE Ip — 1. Ba tis os ae 
指示 变量 ， 当 输出 为 状态 ;时 z, 为 1， 否则 为 0 7 
P(zi ite. stg) = ie (4-5) 


假定 我 们 做 N UCRORE AT TR, ROX = {x} 六,， 其 中 ， 
，_ /1 如 果 试 验 t 选择 状态 i 
“lo Bi 

其 中 Sli = 1 。p: 的 最 大 似 然 估计 是 


A» e (4-6) 
状态 i 的 概率 估计 是 结果 为 状态 i 的 试验 次 数 与 试验 总 次 数 的 比值 。 有 两 种 方法 可 以 





参数 方法 39 


获得 这 个 估计 : 如 果 xz; 是 0/1， 则 可 以 认为 它们 是 K 次 独立 的 伯 努 利 试验 。 或 者 ， 我 们 可 
以 写 出 对 数 似 然 并 找 出 最 大 化 它 的 pi (满足 条 件 2,5: -19, 


4.2.3 高 斯 ( 正 态 ) 密 度 


X EKEK ELX]: =u, FHA Var(X o? HAM EDA, WEN (Gu. o0, WR 
E AY 9 BE RRON 








p(x) = —exp|- e EM] — op« «C 00 (4-7) 
给 定 样 本 X 二 {zx}:-!， 其 中 zx’ 一 和 N(x，o )， 高 斯 样本 的 对 数 似 然 为 
N » E san 
£Gquse| X) 一 一 z log 2x) — Nlogo — 4a 
通过 求 该 对 数 似 然 的 偏 导 数 并 令 它 们 等 于 和 零 ， 可 以 求 出 最 大 似 然 为 : 
2,2 
m — N (4-8) 
ki (2! —my 
as 


我 们 根据 通常 的 约定 ， 用 希腊 字母 表示 总 体 参 数 ， 用 罗马 字母 表示 它们 的 样本 估计 。 
有 时 ， 帽 ( 抑 扬 符 号 ) 也 用 来 表示 估计 ， 例 如 六 。 


4.3 评价 估计 : 偏 位 和 方差 


令 X 是 取 自 参数 9 指定 的 总 体 上 的 样本 ， 并 令 d= 二 d(xX) 是 9 的 一 个 人 和 估计。 为 了 评价 该 
估计 的 质量 ， 我 们 可 以 度量 它 与 9 有 多 大 不 同 ， 即 度量 (4(X) 一 0)*。 但 是 ， 因 为 它 是 一 个 
随机 变量 ( 它 依赖 于 样本 )， 所 以 我 们 需要 对 它 在 可 能 的 X 上 取 平 均值 ， 并 考虑 r(d，0)， 
它 是 估计 d 的 均 方 误差 (mean square error), 4E Y. 

r(d,0) = EL (d(x) —@)*] (4-9) 
fh YT BY 4m 4 Cbias) Fé 
b,(d) = E[d(x)]—0 (4-10) 

WRAAK OfB ABA b,(d)=0, Wi d 是 2 的 无 偏 估计 (unbiased estimator), jtn, 

如 果 cr EASA uc 的 密度 抽取 出 的 ， 则 样本 平均 值 m 是 均值 y 一 个 无 偏 估 计 ， 因 为 
El m] = al = NEL = w = y 

这 就 意味 着 虽然 在 一 个 特定 样本 上 , (Am RS, 不 同 ， 如 果 我 们 取 许 多 这 样 的 样本 
Xi， 并 且 估 计 许 多 mm; 一 畔 (Xi)， 则 随 着 样本 的 增加 ， 它 们 的 平均 值 将 通 近 ps m 也 是 一 个 
— & (consistent) fhit. EME, M4 N 一 w 时 ，Var(m) 一 0。 


De 


t 


Var(m) = Var 











随 着 样本 中 的 点 数 六 的 增 大 ，m So Se). WE, TERM REE o^ BU ERA UA 
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然 估计 s: 
ki (xt — m)’ P (z')* — Nm? 
SI 1 — n — S 
s N N 
DIE Ls]— N * Elor] 
El s |= i 
给 定 VarCX) — E[X? |—ELX]’, 得 到 ELX’ ]=Var(X)+ELX]’, 并且 
EL Cr) ] =H H Elml-—sc/N-c 
于 是 ， 我 们 有 
2 2 ER 2 2 iu 
pF XY +p 2 We EN — (Aye se 


上 式 说 明 > AE o^ ES YE. CN/CN— 1) s 是 一 


个 无 侦 佑 计 。 然 而 ， 当 NN 很 大 时 ， 差 别 


可 以 忽略 。 这 是 一 个 渐 近 无 偏 估 计 (asymptotically unbiased estimator) IJ ff] ^. € FJ fia fj 


ME N 趋 问 无 穷 而 趋 癌 于 0。 


均 方 误差 可 以 重新 改写 为 (d 是 d(X) 的 缩写 ): 


r(d,0)= E[ (d — 0)? ] 
= E[ (d — E[d] + E[4] — 6»? ] 


= El (d — Eld D" + CELd] —8Y* 4-ZCE[4 ] — 094 — El) J 
= EL id — Eld] ] + EL CELd] — 0" ] +22 (Ed) -Atd — ELd D | 
= E[(d— EaI" ] -- Ld) D" + ZCE[ d] — HELa — E[ d | | 


= EL (d—Eld])’ ]  CE[ d] — 9)’ 
e—a M 


方差 偏 倚 * 

最 后 两 式 相 等 是 因为 ELaj] 是 常数 ， 因 此 
ElLd] 一 9 也 是 一 个 常数 ， 并 且 因 为 EL d—E[d]]— 
E[d] 一 ELdj= 二 0。 在 式 (4-11) 中 ， 第 一 项 是 方差 
(variance)， 它 度量 在 平均 情况 下 4; 在 期 望 值 附 
近 ( 从 一 个 数据 集 到 男 一 个 ) 的 变化 程度 ; 而 第 二 
项 是 偏 从 (bias)， 它 度量 期 望 值 偏离 正确 值 9 的 
程度 (参见 图 4-1)。 于 是 ,我 们 把 误差 写成 方差 
和 仿 丛 平方 的 和 : 

r(d,0) = Var(d) + (ba (4-12) 


4.4 贝 叶 斯 估计 


(4-11) 


Aa fg 


图 4-1 90 是 要 估计 的 参数 。d; 是 在 不 同样 本 
X; 上 的 多 个 估计 (用 “X” 表 示 )。 偏 倚 
是 d 的 期 望 值 与 9 之 差 。 方 差 是 AH 
期 望 值 周围 的 散布 程度 。 我 们 希望 它 
们 两 个 都 很 小 


有 时 ， 在 看 到 样本 之 前 ,我 们 (或 应 用 领域 专家 ) 可 能 会 有 一 些 关 于 参数 9 的 可 能 取 值 
范围 的 先 验 (prior) 信 息 。 这 些 信 息 是 非常 有 用 的 ， 也 应 当 利用 起 来 ， 尤 其 是 当 样 本 较 小 
时 。 这 些 先 验 信息 不 会 告诉 我 们 参数 的 确切 值 (否则 我 们 就 不 需要 该 样本 )， 我们 通过 把 0 
看 作 一 个 随机 变量 并 为 它 定 义 先 验 密度 p (90) 来 对 这 种 不 确定 性 建 模 。 例 如 ， 假 设 我 们 被 告 
知 0 接近 正 态 分 布 ， 并且 9 在 5~9 之 间 ， 在 7 左右 对 称 ， 和 置信 度 为 90%。 于 是 ,我 们 可 


以 把 p(9) 写 成 均值 为 7 的 正 态 分 布 ， 并 且 因 为 
0 


P(—1.64 « -—£ zZ 1.64) — 0.9 
oO 
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Piu — 1. 64e — 0 — u+ 1. 640} = 0.9 
所 以 我 们 取 1.64c 王 2， 并 且 使 用 cc=2/1.64。 这 样 ， 我 们 就 可 以 假定 pCOD — NC C7, (2/ 
1. 64)* ), 
先 验 密度 (prior density)p(0) 告 诉 我 们 在 看 到 样本 之 前 9 的 可 能 取 值 。 我 们 把 它 与 样 
本 数据 告诉 我 们 的 ( 即 似 然 密度 p(X 19)) 结 合 起 来 ， 利 用 贝 叶 斯 规则 ， 得 到 9 的 后 验 密度 
(posterior density)， 它 告诉 我 们 看 到 样本 之 后 0 的 可 能 取 值 : 
_ PXI p(X|10) pCO 


cs (4-13) 
p | pcx La) pag 


p(6| x) 


为 了 估计 z 上 的 密度 ， 有 
pz|X) 一 | az,g|X)dg 


= [pCl XO pCO|X) dà 


= ISO X)2d0 


p(0lz，X) 二 p(xz19)， 因 为 只 要 我 们 知道 有 效 统计 量 0. 我 们 就 知道 关于 分 布 的 一 
切 。 这 样 ， 我 们 使 用 所 有 0 的 值 对 预测 取 平 均值 ， 用 它们 的 概率 加 权 。 如 果 我 们 与 在 回归 
中 一 样 ， 以 y= 二 g(x19) 的 形式 做 预测 ， 则 有 


ye [eccl pOl x)d0 


除非 后 验 具 有 很 好 的 形式 ， 否 则 求 这 个 积分 可 能 非常 困难 。 当 求 整个 积分 不 可 行 时 ， 
把 它 缩减 到 单个 点 。 如 果 可 以 假定 如 (0|X) 在 它 的 众 数 周围 有 一 个 罕 峰 ， 则 使 用 最 大 后 验 
(Maximum A Posteriori，MAP) 估 计 将 使 得 计算 比较 容易 : 
Omap = arg max p (0| X) (4-14) 
这 样 ， 用 单个 点 取代 整个 密度 ， 回 避 积 分 并 且 使 用 
pG|x)- p(x |Omar) 
Ymar 一 gc |Omap) 
如 果 我 们 没有 先 验 理由 偏爱 9 的 某 些 值 ， 则 先 验 密 度 是 扁平 的 ， 后 验 将 与 似 然 p(X | a) 
有 相同 的 形式 ， 并 且 MAP 估计 将 等 价 于 最 大 似 然 估计 (参见 4.2 节 )， 其 中 有 


Om. = arg max p(X |0) (4-15) 
另外 一 种 可 能 的 方法 是 贝 叶 斯 估计 (Bayes'estimator)， 它 定义 为 后 验 密 度 的 期 望 值 
Ws = HAX] = ap «ol x»de (4-16) 


取 期 望 值 的 原因 是 随机 变量 的 最 佳 估计 是 它 的 均值 。 假 设 0 是 变量 ， 我 们 想 要 用 EL 0]— pn 
预测 。 可 以 证 明 如 果 常 数 c 是 9 的 估计 ， 则 
E (@—c)*? | = EL@—pt+yp—c)? ] = ELE m] 3- (Qa — ce? (4-17) 
如 果 c 取 jy， 则 它 的 值 最 小 。 在 正 态 密度 情况 下 ， 众 数 是 期 望 值 ， 并 且 如 果 pO x) IEA 
的 ， 则 Opayes = Omar o 
作为 一 个 例子 ， 我 们 假设 z'~ NO, cB O~N wos o), HP wo. o; flo CH: 
>) G' — WD 


"T" 1 74 
pxio- ade ——23 — 
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= 1 (g— a 
pO) = exp — “Se | 
可 以 证 明 p(9|X) 是 正 态 的 ， 满 足 
2 2 
ETa xJ — —N’ E (4-18) 


Nie +i  Nj9 Jig 

因此 ， 贝 叶 斯 估计 是 先 验 均 值 we 和 样本 均值 m 的 加 权 平 均值 ， 权 重 与 它们 的 方差 成 
反比 。 利 用 样本 提供 的 更 多 的 信息 ， 随 着 样本 规模 N 的 增加 ， 贝 叶 斯 估计 通 近 样本 的 平 
HE. o) 较 小 时 ， 即 当 我 们 关于 9 的 正确 值 具有 较 少 的 先 验 不 确定 性 时 ， 或 者 当 ON 较 
小 时 ， 我 们 的 先 验 猜 测 yw 具有 较 好 的 效果 。 

注意 ，MAP 和 贝 叶 斯 估计 都 把 整个 后 验 密 度 归 约 到 单个 点 且 损 失信 息 ， 除 非 后 验 是 
单 峰 的 且 在 这 些 点 周围 有 一 个 穿 峰 。 随 着 计算 费用 的 降低 ， 可 以 使 用 从 后 验 密度 产生 样本 
的 蒙特 卡 洛 方法 (Andrieu 等 2003) 。 还 有 一 些 近似 方法 可 以 用 来 计算 整个 积分 。 我 们 将 在 
第 16 章 更 详细 地 讨论 贝 叶 斯 估计 。 


4.5 参数 分 类 


在 第 3 章 看 到 ， 使 用 贝 叶 斯 规则 ， 可 以 把 类 C; 的 后 验 概率 写成 
pG|C)OP(C) _ _ p(x|C;) P(C;) 





PG |z) = (4-19) 
pla) : 
» pG C, PG) 
k—1 
f FA FA 5!) SAC ER RC 
glad = ple (CPO 
或 者 等 价 地 
g; x) = log p(x|C;) + log PCCi) (4-20) 
如 果 可 以 假设 pC |C;) Fe F8 E n 
NL 
ale |\C) = exp- SF] (4-21) 
2T0; 26; 
Wl) 3X (4-20) AE JV, 
— 344 
g(x) 一 一 5 log2n — logo; — SU LET + logP(C;) (4-22) 


让 我 们 看 一 个 例子 。 假 设 一 个 汽车 公司 销售 K 种 不 同 的 汽车 ， 并 且 为 了 简单 起 见 ， 
我 们 假定 唯一 影响 顾客 购买 的 因素 是 他 们 的 年 收入 ， 用 x 表示 。 于 是 ，P(C;) 是 购买 类 型 
i 汽车 的 顾客 所 占 的 比例 。 如 果 顾 客 的 年 收入 分 布 可 以 用 一 个 高 斯 分 布 近似 ， 则 年 收入 x 
的 人 购买 类 型 i 汽车 的 概率 p(x|C;) 服 从 分 布 N Gus oi), HP u 是 这 类 顾客 年 收入 的 均 
MB. o? 是 他 们 年 收入 的 方差 。 

当 不 知道 POC, Al p(x1C;) 时 ， 从 样本 估计 它们 并 把 它们 的 估计 插入 判别 式 ， 得 到 判 
别 式 函 数 的 估计 。 给 定 样 本 

X = (x',r')z (4-23) 
其 中 xER 是 一 维 的 ，rE {0，1)" 使 得 
A 1 wR x’ € C, 
=d wR x € Ck Xi 
对 于 每 一 个 类 ， 均 值 和 方差 的 估计 是 (依赖 于 式 (4-8) ) ， 


(4-24) 
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Sirri 
im, = 一 (4-25) 

Qu 

Ņ (2! —m;)?7 
QoS (4-26) 
Qu 
而 先 验 的 估计 是 (依赖 于 式 (4-6)): 
Dr 
PG) — N (4-27) 
把 这 些 估 计 代 和 人 式 (4-22) ， 得 到 
gi(x) 一 一 + log2n — logs = E + log P(C;) (4-28) 
S; 


第 一 项 是 常数 ， 可 以 去 掉 ， 因 为 它 是 所 有 g;(x) 中 的 公共 项 。 如 果 这 些 先 验 相等 ， 则 
最 后 一 项 也 可 以 去 掉 。 如 果 进 一 步 假设 方差 都 相等 ， 则 上 式 可 以 写 为 : 
gi(x) =— (r—mF (4-29) 
因此 我 们 把 x 指派 到 均值 最 近 的 类 
选择 C, iX | x — m; | = min|z —m | 
对 于 两 个 相 邻 的 类 ， 两 个 均值 之 间 的 中 点 是 决策 国 值 (参见 图 4-2) 
gi1(X) = g(x) 
(r—m;) = a= my 


| my, + mz 





xX 
b) 具有 相等 先 验 的 后 验 


图 4-2 a) 似 然 函数 。b) 当 输 入 是 一 维 的 时 ， 两 个 类 具有 相等 先 验 的 后 验 。 
方差 相等 且 后 验 相 交 于 一 点 ,该 点 是 决策 国 值 
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SPADA, AMS ACBL 4-3), ENMMADITA(SRYM 4, MRE 
验 概 率 不 同 ， 则 具有 向 不 可 能 的 类 的 均值 移动 决策 阔 值 的 效果 。 


p (x|C) 


p (Cix) 





c) 期 望 风险 


图 4-3 a) WARM. bd 当 输 入 是 一 维 的 时 ， 两 个 类 具有 相等 先 验 的 后 验 。 方 差 不 相 等 且 后 验 在 两 个 点 
上 相交 。 在 c) 中 ， 对 两 个 类 和 4 二 0.2 的 拒绝 (3. 3 节 ) 显 示 了 期 望 风 险 ( 见 3. 3 节 ) 

这 里 ， 我 们 对 参数 使 用 最 大 似 然 估 计 。 但 是 ， 如 果 有 一 些 关 于 它们 的 先 验 信息 (如 均 
值 ) ， 则 我 们 可 以 利用 ji 的 先 验 ， 使 用 p(xz1C;) 的 贝 叶 斯 估计 。 

必须 注意 ， 当 工 是 连续 变量 时 ， 我 们 不 要 急于 对 p(xz1C;) 使 用 高 斯 密度 。 如 果 密 度 隐 
数 不 是 高 斯 的 ， 则 分 类 算法 ( 即 国 值 点 ) 将 会 出 错 。 在 统计 学 文献 中 ， 存 在 检查 正 态 性 的 检 
验 ， 并 且 这 样 的 检验 应 该 在 假定 正 态 分 布 之 前 使 用 。 在 一 维 数据 的 情况 下 ， 最 简单 的 检验 
是 绘制 直方 图 并 观察 密度 是 否 是 钟 形 的 ， 即 是 否 是 单 峰 并 且 围 绕 中 心 对 称 。 

这 是 基于 似 然 (likelihood-based) 的 分 类 方法 ， 其 中 我 们 使 用 数据 估计 密度 ， 使 用 贝 叶 
斯 规则 计算 后 验 密 度 ， 然 后 得 到 判别 式 。 在 稍 后 的 章节 中 ， 我 们 将 讨论 基于 判别 式 的 方法 
(discriminant-based approach)， 那 里 我 们 绕 过 密度 估计 而 直接 估计 判别 式 。 


4.6 回归 


在 回归 中 ， 喜 欢 将 数值 输出 写成 输入 的 函数 。 数 值 输出 称 为 因 变 量 (dependent varia- 
ble). ， 函 数 的 输入 称 为 自 变量 (independent variable) 。 我 们 假定 数值 输出 是 输入 的 确定 性 
函数 与 随机 噪声 的 和 : 

r= f(a) +e 
其 中 f(x) 是 未 知 函 数 ， 将 用 定义 在 参数 9 的 集合 上 的 估计 g(z19) 来 近似 它 。 如 果 假 设 e 服从 
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均值 为 0， 方差 为 到 的 高 斯 分 布 ， 即 e— (0. 60, J3ER RIT fi eC * ) BUR A PR 
fC*), WARE 4-4) 

pix) ~ wGG 00,0?) (4-30) 

我 们 再 一 次 使 用 最 大 似 然 来 学 习 参 

数 90。 训练 集 中 的 对 偶 (z'，x) 取 自 未 知 : 

联合 概率 密度 p(x，r)， 可 以 写作 SEA] perean MM i 

p(x, r) = pl(r|x) p(x) | 

bG | x) 是 在 给 定 输入 下 输出 的 概率 ， 

而 p(x) 是 输入 密度 。 给 定 dud 样本 X= 
(as ra HAMARE 


N 


£X80| X= log || pirr) 


t=} x* X 


N N 
图 4.4 回归 假定 0 均值 的 高 斯 噪声 加 到 模型 中 ， 这 
= log Cr |x‘) + log (r') 
Ile " Il? 里 模型 是 线性 的 


可 以 忽略 第 二 项 ， 因 为 它 不 依赖 于 估计 。 于 是 ， 有 
1 [一 
LO) X= log [I om exp| MEG "mined 


ATO 20° 






x AUR uxt 





p(r\x*) 





ID oa" Rr ! 
= log (z=) exp|— 95 2; [7 — g(x DF | 


=— N log( Jima) — +; >} Le? — gC" |o." (4-31) 
第 一 项 独立 于 参数 6， 可 以 去 掉 ， 因 子 1/ 史 也 可 以 去 掉 。 最 大 化 上 式 等 价 于 最 小 化 
N 
EOLO = +>) [r —gG' | (4-32) 


它 是 最 经 常 使 用 的 误差 函数 ， 而 最 小 化 它 的 9 叫 作 最 小 二 乘 估 计 (least squares estimate), 
这 是 统计 学 经 常 做 的 一 个 变换 ， 当 似 然 ! 包含 指数 时 ， 取 代 最 小 化 2， 我 们 定义 一 个 误差 
$% (error function) E— —log/, 3E f&/MET. 
在 线性 回归 (linear regression) "P, 我 们 有 线性 模型 
glr |w sw) = wr dw, 


对 误差 的 平方 和 关于 w 和 w, 求 导 ( 式 (4-32))， 得 到 两 个 未 知 数 的 两 个 方程 
T= Na, m Fie 


» rats Wy > ia! + w, b» (TY 
CTIS Rin RB PE HIB Aw=y, HH 
N b» " Sor 
uem | i xe ik. 
bx Sey 1 » riz 


t 


a = 


并 且 可 以 求 得 解 w= 二 4 ' y. 
在 多 项 式 回 归 (polynomial regression) 的 一 般 情况 下 ， 该 模型 是 zz 的 & 次 多 项 式 


glz |w ssw sw sw) = w, (r) +2 +, GI 二 wx! 二 w 
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这 个 模型 关于 它 的 参数 是 线性 的 ， 取 它 的 导数 ， 可 以 得 到 十 1 个 未 知 数 的 十 1 个 方 
程 ， 可 以 写成 向 量 和 矩阵 的 形式 Aw 二 y， 其 中 有 


N » ig bM e Y UM 
kt. EMT SG} m er 


me p 
yo» Da) Site yet — Signs 
Y» 
Yu 


t 
w= mw,» Y= |o» 
t 


W, 
2 Ge} 
TA Lid A=D'D Al y=D'r, HH 
1 x! (x yé was (x! yé r! 
l a (x) c (zy di 
D= |, ， r= 
|] zx" i SoC oa a 
然后 ， 我 们 可 以 求解 参数 ， 得 到 
w = (DD) ''D'r (4-33) 


假定 高 斯 分 布 误差 且 最 大 化 似 然 对 应 于 最 小 化 误差 平方 和 。 男 一 个 度量 是 相对 平方 误 
# (Relative Square Error, RSE) 


» [rt — g(x lab |’ 


k» ur! = FP 

如 果 Erse 接 近 于 1， 则 我 们 的 预测 与 用 平均 值 的 预测 一 样 好 ; 当 它 更 接近 于 0 时， 我 
们 得 到 更 好 的 拟 合 。 如 果 Erse 接 近 于 1， 则 说 明 使 用 基于 输入 z 的 模型 不 比 使 用 平均 值 作 
为 估计 器 更 好 ; WR Erss 接 近 于 0， 则 输入 z 是 有 用 的 。 

为 了 检查 回归 是 否 实现 很 好 的 拟 合 ， 一 个 度量 是 决定 系数 (coefficient of determination) 

R’ = 1— Erse 

并 且 为 了 对 回归 是 有 用 的 ， 我 们 要 求 R 接近 于 1。 

记 住 ， 为 了 最 佳 泛 化 ,我们 应 该 调整 学 习 器 模型 的 复杂 度 ， 以 适应 数据 的 复杂 度 。 在 
多 项 式 回 归 中 ， 复 杂 度 参数 是 拟 合 多 项 式 的 阶 ， 因 此 我 们 需要 找到 一 种 选择 最 佳 多 项 式 阶 
的 方法 ， 它 能 够 最 小 化 泛 化 误差 。 也 就 是 说 ， 找 到 一 种 方法 ， 调 整 模 型 的 复杂 度 使 其 最 佳 
拟 合 数据 所 固有 的 函数 复杂 度 。 


47 调整 模型 的 复杂 度 : 偏 倚 / 方 差 两 难 选择 
假设 样本 X — { 必 ，”~)} 取 自 未 知 联合 概率 密度 p(x，r)。 使 用 这 个 样本 ， 构 建 估 计 


(4-34) 


Erse = 


KH AE 47 


ge). x 上 (联合 密度 上 ) 的 期 望 平方 误差 可 以 表示 为 (用 式 (4-17)) 
EL (r— g(x))? |x] = E[Xr— E[rlx D* Ix] + CELr| x ] ^ g(r))’ 
el a a , 


噪声 . 平方 误差 (4-35) 
右边 的 第 一 项 是 给 定 x 时 r 的 方差 ， 它 不 依赖 于 co OMX. ERAS AY TT 2 oo 。 
它 是 误差 的 一 部 分 ， 无论 使 用 什么 估计 方法 ， 都 不 可 能 消除 它 。 第 二 项 量化 g Cr) i S IA 
VERA ELr|xj 的 程度 。 它 确实 依赖 估计 方法 和 训练 集 。 对 一 个 样本 来 说 ，g (zx) 也 许 是 一 
个 非常 好 的 拟 合 ;而 对 某 些 其 他 样本 ， 它 可 能 是 很 差 的 拟 合 。 为 了 评价 一 个 估计 g(。) 的 
好 坏 程 度 ， 在 可 能 的 数据 集 上 进行 平均 。 
期 望 值 (样本 X 上 的 平均 ， 所 有 样本 的 大 小 均 为 N 并 从 相同 联合 密度 pa, rod BOE 
(使 用 式 (4-11)) 
Ex[(CE[r|x]—g(x))* |x] = CE[rlx] — ExLe(x)])’:++ Exl (g(a) — ExLgCGze D* ] 
oculi i id E T eee oh, 


fd fey 方差 (4-36) 
正如 我 们 前 面 所 讨论 的 ， 偏 倚 度 量 不 考虑 样本 变化 的 影响 时 g(xz) 的 错误 程度 ， 而 方 
差 度量 当 样 本 变化 时 g(x) 在 期 望 值 ELg(x)j] 附 近 波 动 的 程度 。 我 们 希望 二 者 都 小 。 
让 我 们 看 一 个 例子 。 为 了 估计 偏 傈 和 方差 ， 由 某 个 带 噪声 的 已 知 f(，) 产 生 一 组 数据 
集 X; 二 {xf，ri} (i 二 1，…，M)， 利 用 每 个 数据 集 形成 一 个 估计 gi 4。，)， 并 计算 偶 傈 和 方 
差 。 注 意 ， 在 现实 生活 中 ， 我 们 不 能 够 这 么 做 ， 因 为 我 们 不 知道 fC 。)， 也 不 知道 所 添加 
噪声 的 参数 。 于 是 ，ELg(x) ] 用 g;(x) 上 的 平均 来 估计 : 


E 1 
g(x) = M282) 
偏 傈 和 方差 的 估计 是 
Bias!(g) = p> [B= f(z} 


: ] : — 2 
Variance(g) — NM 24 2, [mAr = gn) |? 


让 我 们 看 几 个 不 同 复杂 度 的 模型 。 最 简单 的 是 第 数 拟 合 
gi(x)—2 
它 没有 方差 ， 因 为 我 们 没有 使 用 数据 ， 并 且 所 有 的 g; (zx) 都 是 相同 的 。 但 是 ， 除 非 对 于 所 
有 的 x，f(z) 值 都 接近 于 2. 否则 它 的 偏 倚 很 高 。 如 果 我 们 取样 本 中 x 的 平均 值 


g(x) = uri/N 


而 不 是 常数 2， 则 就 会 减少 偏 倚 ， 因 为 我 们 预料 在 通常 情况 下 ,平均 值 是 比 和 常数 更 好 的 估 
计 。 但 是 ， 这 增加 了 方差 ， 因 为 不 同 的 样本 X; 将 有 不 同 的 平均 值 。 通 常 ， 在 这 种 情况 下 ， 
偏 倚 的 减少 比方 差 的 增加 更 大 ， 而 误差 将 会 降低 。 

图 4-5 给 出 了 一 个 多 项 式 回 归 情 况 下 的 例子 。 随 着 多 项 式 的 阶 的 增 大 ， 数 据 集 的 较 小 
变化 将 导致 拟 合 多 项 式 的 较 大 变化 。 因 此 方差 增加 。 但 是 ， 复 杂 的 模型 可 以 更 好 地 拟 合 基 
础 函数 ， 因 此 偏 倚 减 少 ( 参 见 图 4-6) 。 这 称 为 偏 傅 /方差 两 难 选择 (bias/variance dilemma), 
并 且 不 仅 对 于 多 项 式 回 归 ， 而 且 对 于 任何 机 占 学 习 系 统 都 存在 这 一 问题 (Geman，Bienen- 
stock 和 Doursat 1992)。 为 了 减少 偏 丛 ， 冒 着 具有 高 方差 的 危险 ， 模 型 应 当 是 柔性 的 。 如 
果 保 持 较 低 的 方差 ， 则 可 能 不 能 很 好 地 拟 合 数据 ， 并 且 具 有 较 高 的 偏 谷 。 最 佳 模型 是 最 好 
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pi: 
Hx 


的 权衡 偏 傈 和 方差 的 模型 。 





c) 三 次 d) 五 次 


图 4-5 a) 函数 FCz) 王 2sin(1.5z) 和 一 个 从 该 函数 采样 的 含有 了 噪声 (NO0，1)) 的 数据 集 。 抽 
取 5 个 样本 ， 每 个 包含 20 个 实例 。b)、c)、d 分 别 是 5 个 一 次 、 三 次 和 五 次 多 项 式 
gi C OL, OF SERE EL. HEX ES 次 拟 合 的 平均 g(。) 


4 





图 4-6 与 图 4-5 同样 的 设置 ， 使 用 100 PRAMAS, AKERA Of. r2: 
和 误差 。 一 次 多 项 式 具 有 最 小 方差 ， 五 次 多 项 式 具 有 最 小 偶 倚 。 随 着 阶 的 增加 ， 偶 倚 
减 小 但 是 方差 增加 。 三 次 多 项 式 具有 最 小 误差 
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如 果 有 偏 位 ， 则 表明 模型 类 不 包含 解 ， 这 是 欠 拟 合 (underfitting)。 如 果 有 方差 ， 则 模 
型 类 过 于 一 般 ， 并 且 也 学 习 噪 声 ， 这 是 过 拟 合 Coverfitting) WR g(。) 是 与 f(。) 同 样 的 
假设 类 (例如 ， 相 同 次 的 多 项 式 )， 则 我 们 有 一 个 无 偏 估 计 ， 并且 估 计 的 偏 倚 随 着 模型 数 增 
加 而 减 小 。 这 表明 选择 正确 模型 的 误差 降低 效果 《在 第 2 章 ， 我 们 称 为 归纳 偏 倚 这 两 
处 “ 偏 傈 ”的 使 用 是 不 同 的 ， 但 并 非 不 相关 )。 对 于 方差 ， 它 同样 依赖 于 训练 集 的 大 小 。 由 
于 样本 导致 的 可 变性 随 着 样本 规模 的 增加 而 减少 。 总 之 ， 为 了 取得 小 的 误差 值 ， 我 们 应 该 
有 合适 的 归纳 偏 倚 (在 统计 意义 上 取得 小 的 偏 倚 ，);， 并 且 有 足够 大 的 数据 集 ， 使 得 模型 的 可 
变性 能 够 受到 数据 的 约束 。 

注意 ， 当 方差 大 时 偏 倚 小 ， 这 表明 g(x) 是 一 个 好 的 估计 右 。 因 此， 为 了 取得 小 的 误 
差 值 ， 我 们 可 以 采用 大 量 高 方差 模型 ， 并 且 用 它们 的 平均 值 作为 估计 。 我 们 将 在 第 17 章 
讨论 这 种 模型 组 合 方法 。 


4.8 模型 选择 过 程 
有 许多 过 程 可 以 用 来 调整 模型 的 复杂 度 。 





在 实践 中 ， 我 们 用 来 发 现 最 佳 复 杂 度 的 方法 是 交叉 验证 (cross-validation) 。 我 们 不 能 
计算 一 个 模型 的 偏 位 和 方差 .但 是 我 们 能 够 计算 总 误差 。 给 定 一 个 数据 集 ， 我 们 把 它 分 成 
两 部 分 ， 分 别 作 为 训练 集 和 验证 集 ， 在 训练 集 上 训练 不 同 复杂 度 的 候选 模型 ， 而 在 训练 时 
留 下 的 验证 集 上 检验 它们 的 误差 。 随 着 模型 复杂 度 的 增加 ， 训 练 误差 持续 降低 。 在 达到 一 
定 的 复杂 程度 之 前 ， 验 证 集 上 的 误差 降低 ， 然 后 停止 降低 或 不 再 进一步 显著 降低 ， 如 果 数 
据 中 有 了 噪声， 其 至 还 会 增加 。 这 个 “拐点 ”对 应 于 最 佳 复 杂 度 水 平 (参见 图 4-7). 

5 


EE 





b) 误差 与 多 项 式 的 次 


图 4-7 与 图 4-5 同样 的 设置 ， 产 生 训练 集 和 验证 集 ( 每 个 包含 50 个 实例 ) 。a) 训练 数据 与 
一 一 八 次 的 拟 合 多 项 式 。b) 训练 和 验证 误差 作为 多 项 式 次 的 函数 。 “拐点 ”在 3 


82 
l 
85 


0 L E 


在 现实 生活 中 ， 我 们 不 能 像 图 4-6 FARREA mio KMA AENA RE. DR PF AAA 
噪声 的 方差 外 ， 图 4-7 中 的 验证 误差 是 一 种 估计 : 即便 我 们 有 无 偏 的 正确 模型 ， 并且 有 足 
够 大 的 数据 集 可 以 忽略 方差 ， 但 仍然 会 有 非 零 验 证 误差 。 注 意 ， 图 4-7 中 的 验证 误差 与 图 
4-6 中 的 误差 不 同 ,， 不 是“V 形 ” 的 ， 因 为 前 者 使 用 更 多 的 训练 数据 ， 并 且 我 们 知道 使 用 更 
多 数据 可 以 限制 方差 。 确 实 ， 在 图 4-5d 中 我 们 看 到 ， 在 有 数据 的 地 方 ， 即 使 五 次 多 项 式 
的 表现 也 与 三 次 多 项 式 一 样 ; 在 只 有 少量 数据 的 地 方 (例如 ， 在 两 端 )， 五 次 多 项 式 不 那么 
准确 。 

另 一 个 常用 的 方法 是 正则 化 (regularization)(Breiman 1998a) 。 在 这 种 方法 中 ， 使 用 一 
As 3 T GR Z SH HK (augmented error function) ， 记 作 

E 一 数据 上 的 误差 十 。 模 型 复杂 度 (4-37) 

它 的 第 二 项 用 一 个 大 的 方差 惩罚 复杂 模型 ， 其 中 4 给 出 了 惩罚 的 权重 。 当 我 们 最 小 化 
增 广 误差 函数 而 不 仅仅 是 数据 上 的 误差 时 ， 我们 惩罚 了 复杂 模型 ， 因 此 降低 了 方差 。 如 果 
入 太 大 ， 则 只 人 允许 很 简单 的 模型 ， 我 们 就 会 冒 着 引进 侦 倚 的 危险 。》 用 交叉 验证 优化 。 

另 一 种 看 待 式 (4-37) 的 方法 是 把 瓦 看 作 新 的 检验 数据 上 的 误差 。 右 边 的 第 一 项 是 训练 
误差 ， 而 第 二 项 是 佑 计 训 练 导 检验 误差 之 间 偶 差 的 乐观 (optimism) 项 (Hastie，Tibshirani 
和 Friedman 2011)。 可 以 用 Akaike 信息 准则 (Akaike's Information Criterion, AIC) HUN 
叶 斯 信息 准则 (Bayesian Information Criterion，BIC) 等 方法 估计 这 个 乐观 项 ， 并 把 它 加 到 
训练 误差 来 估计 检验 误差 ， 而 不 需要 验证 。 这 个 乐观 项 的 大 小 随 输入 的 个 数 d( 这 里 是 上 十 
1) 线 性 增加 ， 并 且 随 训练 集 的 大 小 NN 的 增加 而 减少 ， 它 还 随 添 加 的 噪声 的 方差 o (可 以 由 
低 偏 倚 模型 的 误差 估计 ) 的 增加 而 增加 。 对 于 非 线性 模型 ，d 应 该 代 之 以 参数 的 “有 效 ” 
个 数 。 

结构 风险 最 小 化 (Structural Risk Minimization, SRM) (Vapnik 1995) 使 用 一 个 模型 
集 ， 按 它们 的 复杂 度 排序 。 一 个 例子 是 次 递增 的 多 项 式 。 复 杂 度 一 般 用 目 由 参数 的 数量 度 
Ht VC 维 是 男 一 种 模型 复杂 度 的 度量 。 在 式 (4-37) 中 ， 可 以 使 用 递减 的 ;来 得 到 复杂 
递增 的 模型 集合 。SRM 模型 选择 对 应 于 寻找 最 简单 且 在 数据 上 的 经 验 误差 最 小 的 模型 。 

最 小 描述 长 度 (Minimum Description Length, MDL) (Rissanen 1978, Grünwald 
2007) 基 于 信息 论 度 量 。 数 据 集 的 Kolmogorov 复杂 度 (Kolmogorov complexity) 和 定义 为 数 
据 的 最 短 描述 。 如 果 数 据 简 单 ， 它 就 有 短 的 复杂 度 。 例 如 ， 如 果 它 是 0 的 序列 ， 则 可 以 只 
写 0 和 序列 的 长 度 。 如 果 数 据 是 完全 随机 的 ， 则 不 可 能 有 比 数据 自 映 更 短 的 数据 描述 。 如 
果 一 个 模型 对 数据 是 合适 的 ， 则 它 有 一 个 好 的 数据 拟 合 ， 我 们 可 以 发 送 / 存 储 模型 描述 而 
不 是 数据 本 身 。 在 描述 数据 的 所 有 模型 中 ， 我 们 想 要 一 个 最 简单 的 模型 ， 以 便 适 合 最 短 描 
述 。 这 样 ， 我 们 又 一 次 要 在 模型 的 简单 性 和 它 解释 数据 的 能 力 之 间 权 衡 。 

当 我 们 有 一 些 关 于 近似 函数 的 合适 类 的 先 验 知识 时 ， 使 用 贝 叶 斯 模型 选择 (Bayesian 
model selection) 。 这 种 先 验 知识 定义 为 模型 的 先 验 分 布 p( 模 型 )。 给 定数 据 并 假定 一 个 模 
型 ， 可 以 用 贝 叶 斯 规则 计算 p( 模 型 | 数据 ): 


_. 力 ( 数 据 | 模 型 ) 户 (模型 ) 
力 ( 模 型 | 数据 ) EES 


给 定 关 于 模型 的 主观 先 验 知识 ( 即 p (模型 )) 和 数据 提供 的 客观 支持 ( 即 p (数据 | 模 
型 )) ， 力 (模型 | 数据 ) 是 模型 的 后 验 概率 。 我 们 可 以 选择 具有 最 高 后 验 概率 的 模型 ， 或 者 用 
模型 的 后 验 概率 加 权 ， 在 所 有 模型 上 取 平 均 。 我 们 将 在 第 16 章 详 细 讨 论 贝 叶 斯 方法 。 如 
果 我 们 取 式 (4-38) 的 对 数 ， 则 得 到 


(4-38) 
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logp( 模 型 | 数据 ) = log p( 数 据 | 模 型 ) 十 log pO 8 — c (4-39) 
这 具有 式 (4-37) 的 形式 。 数 据 的 对 数 似 然 是 训练 误差 ， 而 先 验 的 对 数 是 惩罚 项 。 例 如 ， 如 
果 我 们 有 一 个 回归 模型 ， 并 使 用 先 验 
p(w)~N (0, 1/0. MEME 


E= 2 [5 — gCz* |w) l* +A wi? 


(4-40) 

也 就 是 说 ， 我 们 寻找 降低 误差 并 且 
尽 可 能 接近 0 的 w,， 而 我 们 希望 它们 接 
近 0 的 理由 是 拟 合 的 多 项 式 会 更 平滑 。 随 
着 多 项 式 的 次 的 增加 ， 为 了 更 好 地 拟 合 
数据 ， 函 数 将 上 下 摆动 ， 这 说 明 系 数 远 
离 0( 参 见 图 4-8)。 当 我 们 加 上 这 个 惩罚 
时 ,我 们 强制 更 平坦 、 更 平滑 的 拟 合 。 0 05 1 15 2 25 3 35 4 45 5 
惩罚 多 少 依 赖 于 4*， 它 是 先 验 方差 的 逆 ， 图 4-8 与 图 4-5 同样 的 设置 拟 合 1 到 4 EX. 





即 我 们 期 望 先 验 的 权重 离 0 多 远 。 也 就 是 系数 的 大 小 随 多 项 式 的 阶 增 加 而 增加 它们 是 
I; [—0.0769, 0.00116], 2: [0.1682, 一 
Wa 有 这 样 的 先 验 等 价 于 迫使 参数 接近 0.665 7, 0.008 0]", 3. [0.423 8, — 2.577 
于 0。 我 们 将 在 第 16 章 更 详细 地 讨论 这 


8, 3.467 5, —0.000 2 |", 4; [— 0.109 3, 
一 问题 。 1.4356, —5.500 7, 6.0454, —0.0019]" 


也 就 是 说 ， 当 选择 的 先 验 使 得 较 简 


单 的 模型 具有 较 高 的 概率 时 (根据 奥 克 姆 剃刀 规则 )， 贝 叶 斯 方法 、 正 则 化 、SRM 和 MDL 


都 是 等 价 的 。 交 叉 验 证 与 其 他 模型 选择 方法 不 同 ， 因 为 它 不 对 模型 做 任何 先 验 假设 。 如 果 
有 足够 大 的 验证 数据 集 ， 它 是 最 好 的 方法 。 在 数据 样本 很 小 时 ， 其 他 模型 变 得 有 用 。 


4.9 注释 


关于 最 大 似 然 和 贝 叶 斯 估计 基础 的 一 个 好 的 资源 是 Ross 1987。 许 多 模式 识别 教材 都 
讨论 了 参数 模型 分 类 (例如 ，MacLachlan 1992; Devroye, Gyórfi 和 Lugosi 1996; Webb 
1999; Duda, Hart 和 Stork 2001)。 检 查 一 元 正 态 性 的 检验 可 以 在 Rencher 1995 中 找到 。 

Geman, Bienenstock 和 Doursat(1992) 讨 论 了 多 个 学 习 模 型 的 偏 们 和 方差 分 解 ， 这 些 
我 们 也 将 在 后 面 的 章节 中 讨论 。 偏 倚 / 方 差分 解 是 针对 平方 损失 和 以 及 回归 ; 对 于 0/1 损 
失 ， 误 差 的 这 种 偶 倚 、 方 差 和 噪声 的 加 法 分 解 是 不 可 能 的 ， 因 为 对 于 分 类 ， 如 果 意 外 落 到 
边界 的 另 一 侧 就 会 出 错 。 对 于 两 类 问题 ， 如 果 正 确 的 后 验 是 0.7， 而 估计 是 0.8， 则 没有 
错误 ; 仅 当 估计 小 于 0. 5 时 才 出 错 。 对 于 分 类 ， 不 同 的 研究 者 提出 了 偏 傈 和 方差 的 不 同 定 
义 。 综 述 参见 Friedman 1997, 


4. 10 “习题 


1. 写 出 生成 以 给 定 的 p 为 参数 的 伯 努 利 样本 的 程序 ， 并 写 出 由 样本 计算 Zp 的 程序 。 

2. 写 出 多 项 样本 的 对 数 似 然 ， 并 证 明 式 (4-6)。 

3. 写 出 生成 以 给 定 p o 为 参数 的 正 态 样 本 的 并 由 样本 计算 Fils 的 程序 。 对 jy 假定 先 验 
分 布 ， 用 贝 叶 斯 估计 做 相同 的 工作 。 

. 4. 给 定 两 个 正 态 分 布 pGc|Ci) o NGa » of AM pCx|C;) ~N, oR p(C,) RI pC), 分 
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B 
A 
Kp 


析 地 计算 贝 叶 斯 判别 点 。 
解 : "E 


ptr [Ci — N Gu (01) = 





pCa Ci) — N Cus +03) 
我 们 要 寻找 a, EWE PCC, |x2)=P(C, |z) 或 
pCrz|C,)PCC;) = p(z|C PCC log p(x lC) 
+ logP(C,) = logp(z|C,) + logP(C;) 


— 2 
一 z log? — logo; — ou + logP(C, ) 
1 


— logs 一 py — 2i, -- 4d) + logP(C,) 


LES Jat + Ur get 


20> 0; 


toro 


P). 
P(C;) 





MET LJ log 2 + log 


这 是 az 十 pz 十 c 王 0 的 形式 ， 而 它 的 两 个 根 为 
— b+ Vb — 4ac 
2a 


Ki aBa — 


注意 : MRTG. WRT A RA—TR, EENET x 
值 上 。 





C 
5. 在 高 斯 密度 的 情况 下 ， 似 然 比 如 CD 是 什么 ? 
p(x|C2) 
解 : 
ji (r— m )* 
nl [t 
PG IC) _ Vna mb] 
Mp 2 
bG |C2) 1 exp[— (x "y | 
2T0» 02 


如 果 有 ==, Wu ERT AWHEA 


blc) ox = oH a ora) 
p(a [C P 20° 20° 


— OR. 


= exp(ur + w,) 


HEFP, w w= Cu. — u, ) l" s w= Cu; — ui) /20° « 


. 对 于 两 类 问题 ， 用 不 同 的 方差 为 两 个 类 产生 正 态 样本 ， 然 后 使 用 参数 分 类 法 估计 判别 


点 。 将 它 与 理论 值 进行 比较 。 


. 假定 一 个 线性 模型 ， 然 后 加 入 0 均值 的 高 斯 噪声 来 产生 一 个 样本 。 把 样本 一 分 为 二 ， 分 


别 作为 训练 集 和 验证 集 。 在 训练 集 上 使 用 线性 回归 。 在 验证 集 上 计算 误差 。 对 二 次 和 
三 次 多 项 式 做 同样 的 处 理 。 


. 当 训 练 集 较 小 时 ， 方差 对 误差 的 贡献 可 能 比 偏 倚 大 。 在 这 种 情况 下 ， RIT BE SE OX 


简单 模型 ， 即 使 我 们 知道 对 于 我 们 的 任务 它 太 简单 了 。 你 能 给 出 一 个 例子 吗 ? 
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9. [Bit ia ERE X; (xi. n). RN g (=r), MRMMER x 的 估计 是 数据 集 X， 
的 第 一 个 实例 (未 排序 的 ) 的 > 值 。 与 gCz)=2 和 8&iCz) = > r'/N 相 比 ， 关 于 它 的 偏 


倚 和 方差 你 有 何 评 论 ?” 如 采样 本 是 有 序 的 使 得 .g;(z) 二 minr;， 和 情况 又 如 何 ? 
10. 在 式 (4-40) 中 ， 改 变 4 对 偏 位 和 方差 的 影响 是 什么 ? 
解 : A 控制 平滑 性 : 如 果 它 太 大 ， 则 可 能 平滑 过 度 而 以 增加 偏 倚 为 代价 减少 方差 ; 
如 果 它 太 小 ， 则 偏 倚 可 能 小 但 方差 将 很 高 。 
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多 元 方法 





在 第 4 章 ， 我 们 讨论 了 分 类 和 回归 的 参数 方法 。 现 在 ， 我 们 将 它们 推广 到 多 元 情况 ， 
其 中 有 多 个 输入 ， 并 且 输 出 ( 即 类 编码 或 连续 输出 ) 是 这 些 输入 的 函数 。 这 些 输入 可 能 是 离 
散 的 或 数 什 的。 我 们 将 讨论 如 何 从 标记 的 多 元 样本 学 习 这 样 的 函数 ， 以 及 如 何 根据 已 有 数 
据 调整 学 习 方 法 的 复杂 度 。 


5.1 多 元 数据 


在 许多 应 用 中 ， 许 多 测量 都 在 每 个 个 体 或 者 事件 上 进行 ， 并 产生 观测 向 量 。 样 本 可 以 
Aa VE — Ny HE EE (data matrix) 


Xi Xpo X 
y |X x o x 
XT XT — X 


其 中 d 列 对 应 于 4 个 变量 ， 表 示 在 个 体 或 事件 上 的 测量 结果 。 它 们 也 称 为 输入 (Cinput)、 
特征 (feature) 或 属性 (attribute) 。 N 行 对 应 于 在 N 个 个 体 或 事件 上 的 独立 同 分 布 的 观测 
(observation), 、 样 例 (example) 或 实例 (instance) , 

例如 ， 在 对 贷款 申请 做 决定 时 ， 观 测 向 量 是 与 客户 相关 的 一 些 信 息 ， 包 括 客户 的 年 
龄 、 婚 姻 状 况 、 年 收入 等 ， 并 且 我 们 有 N 个 这 样 的 老 客户 。 这 些 测 量 也 许 有 不 同 的 尺度 ， 
例如 ， 年 龄 用 年 计算 ， 年 收入 用 货币 单位 计算 。 有 些 ( 如 年 龄 ) 可 能 是 数值 的 ， 有 些 ( 如 婚 
姻 状 况 ) 可 能 是 离散 的 。 

通常 ， 这 些 变量 是 相关 的 。 如 果 它 们 不 相关 ， 就 没有 必要 做 多 元 分 析 。 我 们 的 目标 也 
许 是 化 简 (simplification)， 也 就 是 用 相对 少 的 参数 汇总 大 量 数据 。 我 们 的 目标 也 许 是 探索 
(exploratory)， 并 且 我 们 可 能 对 产生 关于 数据 的 假设 感 兴 趣 。 在 有 些 应 用 中 ， 我们 对 从 其 
他 变量 的 值 来 预测 一 个 变量 的 值 感 兴 趣 。 如 果 被 预测 的 变量 是 离散 的 ， 则 就 是 多 元 分 类 问 
A; 如 果 是 数值 的 ， 则 就 是 多 元 回归 问题 。 


5.2 参数 估计 
均值 向 量 (mean vector) yp 的 每 个 元 素 都 是 X 的 一 列 的 均值 : 
E[ x | =x u — Lt gees väta" (5-1) 
X; 的 方差 记 作 ci ， 两 个 变量 X 和 Xi 的 协 方差 定义 为 
o; = Cov(X,,X;) = E[(X, — mI (X; —u)] = ELAK] — pip, (5-2) 


满足 oy =o; FFAMI=j MN. o; 二 of 。d 个 变量 就 有 d 个 方差 和 d(d—1)/2 个 协 方差 。 通 党 
表示 为 dXd 矩阵， 称 为 协 方差 矩阵 (covariance matrix)， 用 允 表 示 ， 其 第 (1, 站) 个 元 素 是 oj: 
ol On * Ou 
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对 角 线 上 的 元 素 是 方差 ， 非 对 角 线 上 的 元 素 是 协 方 差 ， 并 且 和 矩阵 是 对 称 的 。 使 用 向 量 
矩阵 记号 
X = Cov(X) = EL(X— p) (X— p)" | = ELXX' ] — pp" (5-3) 
如 果 两 个 向 量 是 线性 相关 的 ， 则 协 方差 为 正 或 为 负 ， 这 取决 于 线性 关系 的 斜率 是 正 还 
是 负 。 但 是 相关 性 的 大 小 很 难 解释 ， 因 为 它 取决 于 两 个 变量 的 测量 单位 。 变 量 X 和 Xi) 的 
相关 性 (correlation) 是 一 个 规范 化 到 一 1 一 十 1 之 间 的 统计 量 ， 和 定义 为 : 
CorrCX; Xj) = py = a (5-4) 
WRAP eh, BARD AT2A O0, AMARA 0. Ai, AMAL 
确 : 变量 也 许 是 依赖 的 (以 非 线性 方式 )， 但 是 它们 的 相关 性 可 能 为 0。 
给 定 多 元 样本 ， 可 以 计算 这 些 参 数 的 估计 : 均值 的 最 大 似 然 估计 是 样本 均值 (sample 
mean)m, CHS i EX 的 第 i 列 的 平均 值 : 








N 
2,* 2,2 
m — TN D 其 中 m = t= 1] (5-5) 
Zz 的 估计 是 样本 协 方 差 (sample covariance) Œ K S, ER E 
N 
ED (at —m,;)? 
s? 一 一 ERE GN (5-6) 
N 
* Gi — m) (x4 — m) 
s, 5 4 (5-7) 


N 
它们 是 有 偏 估计 ， 但 如 果 在 应 用 中 估计 的 变化 显著 依赖 于 被 N 还 是 被 N 一 1 来 除 ， 则 
那么 将 遇 到 严重 的 麻烦 。 
样本 相关 (sample correlation) AWE: 


rg 一 一 (5-8) 
而 样本 的 相关 和 矩阵 R 包含 Fijo 


5.3 缺失 值 估 计 


观测 中 的 某 些 变 量 的 值 和 常常 可 能 缺失 。 最 好 的 策略 是 把 这 些 观 测 值 一 同 丢 弃 ， 但 是 ， 
一 般 我 们 没有 足够 大 的 样本 来 让 我 们 这 样 做 ， 并 且 我 们 不 想 丢 弃 数据 ， 因 为 非 缺 失 的 条 目 
确实 包含 信息 。 我 们 试图 通过 估计 它们 来 填写 缺失 的 条 目 ， 这 称 作 估算 (imputation)。 

在 均值 估算 (mean imputation) 中 ， 对 于 数值 变量 ， 用 现 有 数据 的 均值 (平均 值 ) 来 代替 
样本 中 缺失 的 变量 值 。 对 于 离散 变量 ， 用 最 可 能 出 现 的 值 ， 即 数据 中 最 常 出 现 的 值 来 填写 
缺失 的 变量 值 。 

在 回归 估算 (imputation by regression) 中 ， 试 图 从 值 已 知 的 其 他 变量 来 预测 缺失 的 变 
量 值 。 根 据 缺 失 变量 的 类 型 ， 分 别 定 义 回 归 或 分 类 问题 ， 用 其 值 已 知 的 数据 点 来 训练 。 如 
果 许 多 不 同 的 变量 都 缺失 ， 则 我 们 取 均 值 作为 初始 估计 ， 并 反复 执行 该 过 程 直 到 被 预测 的 
值 稳 定 。 如 果 这 些 变量 不 是 高 度 相 关 的 ， 则 回归 方法 与 均值 估算 等 价 。 

然而 ， 根 据 环 境 ， 有 时 特定 属性 值 的 缺失 也 许 很 重要 。 例 如 ， 在 信用 卡 申请 中 ， 如 果 
申请 人 不 提供 电话 号 码 ， 这 也 许 是 一 条 至 关 重 要 的 信息 。 在 这 样 的 情况 下 ， 我 们 用 一 个 单 
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独 的 值 表示 它 ， 指 明 该 值 缺 失 并 照 此 使 用 。 


5.4 多 元 正 态 分 布 
在 多 元 情况 下 ， 其 中 x 是 4 维 、 正 态 分 布 的 ， 我 们 有 


p(x) = = (yr— E (xp | (5-9) 


l 
Co” | X| yzexp| 2 
并 且 我 们 记 x~ a(n E. Kb dS _ 
值 向 量 ， 马 是 协 方差 矩阵 (参见 图 5-1). MN amat T 


3 = Gm — ui (o^ 277 Eur — py) 


fe x $m EE: SL. OSA T] BS 
方差 规范 化 的 平方 距离 一 样 ， 在 多 元 情 
况 下 ， 使 用 马 氏 距离 (Mahalanobis dis- 
tance): 
(x—4)? X^ (x—g (5-10 
(x— u) X '(x—u)= į ÆA pA 





心 的 d 维 超 椭 球 ， 并 且 它 的 形状 和 方向 x x 
由 加 决 定 。 由 于 使 用 了 对 的 着， 所 以 如 MEE Sepa 


果 一 个 变量 的 方差 比 其 他 变量 的 方差 
大 ， 则 它 在 马 氏 距离 中 的 权重 较 小 。 类 似 地 ， 两 个 高 度 相 关 变 量 的 贡献 没有 两 个 相关 性 较 
低 变 量 的 贡献 大 。 这 样 ， 使 用 协 方差 矩阵 的 逆 具 有 将 所 有 变量 标准 化 (具有 单位 方差 ) 并 消 
除 相 关 性 的 效果 。 

为 便于 显示 ， 让 我 们 考虑 二 元 情况 ， 其 中 d= 二 2( 参 见 图 5-2) 。 当 变量 独立 时 ， 密 度 的 
主轴 与 输入 轴 和 平行。 如 果 方 差 不 同 ， 则 密度 变 成 椭圆 。 密 度 根据 协 方差 (相关 性 ) 的 符号 旋 
Fe, SA et A Lys pel. Pde PEA a E eS ON 


y= | ai py 
909102 


Cov (x,,x,) 20, Var (x,) =Var (x;) Cov (x,,x,) =0,Var (x,) » Var (x,) 


ro) 


Cov ei X) 20 Cov (x,,x;) «0 


o |o 


TG AE AS A fy MEE SE A PL. Fora rH B) fff ae BIERA A I8] HGB F AHR E PE 


(8] 
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二 元 联合 密度 可 以 表示 为 如 下 形式 (见习 题 1) : 
pt en a 2 : 
Ed | Tp 2pzıza + 28) | (5-11) 
HP, zo—ri—pi2/o; (171, 2) 是 规范 化 变量 ， 称 为 z 规 范 化 (z-normalization)。 记 住 ， 
当 |p| 过 1 时 ， 


pla ssl ) —I 


zi 十 2pziz2 十 zz = 常数 

是 椭圆 方程 。 当 o>OM, MAM EMBRAER, 4 po<0 时 ， 主 轴 具 有 负 和 斜率 。 

在 式 (5-11) 的 扩展 马 氏 距离 中 ， 每 个 变量 都 被 规范 化 ， 具 有 单位 方差 ， 交 又 项 修正 了 
两 个 变量 之 间 的 相关 性 。 

概率 密度 依赖 于 5 个 参数 : 两 个 均值 、 两 个 方差 和 相关 性 。 只 要 方差 不 是 0 且 |o| 志 1， 
则 允 就 是 非 奇 异 的 ， 因 此 是 正定 的 。 如 果 p 是 十 1 或 者 一 1， 则 两 个 变量 是 线性 相关 的 ， 观 
测 事实 上 是 一 维 的 ， 并 且 两 个 变量 中 的 一 个 可 以 去 掉 。 如 果 p= 二 0， 则 两 个 变量 是 独立 的 ， 
交叉 项 消失 ， 得 到 两 个 一 元 密度 的 乘积 。 

在 多 元 情况 下 ， 小 的 | 允 | 值 表明 样本 靠近 pj， 正如 单 变量 的 情况 ， 小 的 表示 样本 靠 
近 yu。 小 的 | 允 | 还 表示 两 个 变量 之 间 高 度 相 关 。 允 是 对 称 正定 矩阵 ， 这 是 Var(X)>0 的 多 
元 说 法 。 否 则 , 允 是 奇异 的 ， 它 的 行列 式 的 值 为 0。 这 要 么 是 由 于 维 之 间 的 线性 依赖 性 ， 
要 么 是 因为 有 一 维 具 有 0 方差。 在 这 种 情况 下 ， 应 该 将 维度 归 约 ， 得 到 正定 矩阵 ; 第 6 E 
将 讨论 这 个 问题 的 处 理 方法 。 

AE x—:wa(Qa. X), Wx RERE- TESH. HAREM: 每 一 个 X MAY 
是 一 元 正 态 的 ， 而 X 不 一 定 是 多 元 正 态 的 。) 实 际 上 ， 变 量 的 任意 k<d 的 子 集 都 是 & 元 正 
AS HY 

特殊 情况 是 ,x 的 分 量 是 独立 的 ， 并 且 当 i26; 时 Cov(X;，X;)= 二 0， 且 对 于 任意 的 i 
Var(X;) 二 a? 。 于 是 ， 协 方差 矩阵 是 对 角 的 ， 联 合 密度 是 各 个 一 元 密度 的 乘积 : 


d 


] 1 — fpe 
p(x) = EZES = — —L—|- 3 2: (=) | (5-12) 
(2x)*” | | a; | 


i=] 


现在 ， 我 们 考察 另 一 个 性 质 ， 它 将 在 以 后 的 章节 中 用 到 。 假 设 x~ Nap, 22, wE 
Ri, Ji 
wx = w Tti +w, T: +e" + wa ~ N (w'p,w' Zw) 
给 定 
E[w'x]— w'E[x] = w'p (5-13) 
Var(w'x)= EL Cw! x — w py ] = Etu" x= w p) Cw' x — w! p) ] 
= E| w (x= pw (x—p)' ww] = w El (x= p) xm p! Jw 
= w' Dw (9-14) 
这 就 是 说 ，d 维 正 态 分 布 在 向 量 w 上 的 投影 是 一 元 正 态 分 布 。 在 一 般 情况 下 ， 如 果 W 
是 d Xk EE, HR R<d, W k HW x BRR JUIE 2327 fh : 


W'x ~ Ni (W'p, „WI xw) (5-15) 
也 就 是 说 ， 如 果 把 一 个 d 维 正 态 分 布 投影 到 & 维 空间 ， 则 投影 是 & 维 正 态 分 布 。 


5.5 多 元 分 类 
当 xER" 时 ， 如 果 取 类 条 件 密度 pOxX|C OON GE AS REN mo EO. WA 
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p(x|C;) = ym E ep) | (5-16) 


l 
goram 
这 样 做 的 主要 原因 是 它 分 析 的 简单 性 (Duda，Hart 和 Stork2001) 。 此 外 ， 正 态 分 布 密度 函 
数 是 许多 自然 现象 的 模型 ， 因 为 大 多 数 类 的 样本 都 可 以 看 作 人 简单 原型 应 的 轻微 改变 版 本 ， 
JF ELEM; 2: 5B [Fe E, 表示 每 个 变量 中 的 噪声 量 与 这 些 噪声 源 的 相关 性 。 尽 管 真实 数据 可 能 
常常 并 非 是 严格 多 元 正 态 的 ， 但 是 这 是 一 个 有 用 的 近似 。 除 了 它 易于 进行 数学 处 理 外 ， 该 
模型 对 偏离 正 态 分 布 的 鲁 棒 性 在 许多 工作 中 都 展示 出 来 (例如 ，McLachlan 1992)。 然 而 ， 
一 个 明显 的 要 求 是 一 个 类 的 样本 应 该 形成 单个 组 ; 如 果 有 多 个 组 ， 则 应 该 使 用 混合 模型 
( 见 第 7 FE). 

假设 我 们 要 预测 顾客 可 能 感 兴趣 的 汽车 类 型 。 不 同 的 汽车 是 不 同 的 类 ， 而 x 是 顾客 的 
可 观测 数据 ， 例 如 年 龄 和 收入 。k; 是 购买 i 类 汽车 的 顾客 年 龄 和 收入 的 均值 向 量 ,， 而 x. 是 
它们 的 协 方差 矩阵 : o IL 号 分 别 是 年 龄 和 收入 的 方差 ，ou 是 购买 ;类 汽车 的 顾客 年 龄 和 
收入 的 协 方差 。 
当 定 义 判 别 式 函 数 为 
g:(x) = log p(x|C;) log P(C.,) 
并 假定 p(x|1C;) ~N Qus DD, RITA 


g, x) = OTS; '(x—p,) +logP(C;) (5-17) 
2 2 2 P E 


给 定 K>2 SRV EX — (ix'. ro. APUR EC, Wr-l. AMA, rl 
对 每 个 类 求 最 大 似 然 ， 找 到 均值 和 协 方差 的 估计 : 








ur 
rin? 
m.;-— < 
Qu 
Siri (e —m) (xt —m,)7 
S= = (5-18) 
Sir 
然后 ， 将 这 些 代 入 判别 式 函 数 ， 得 到 判别 式 的 估计 。 和 忽略 第 一 个 常数 项 ， 有 
gi(x) =— log|S,|— 3 (x—m)" Sj (x — m) + log PCC,) (5-19) 
把 它 展开 ， 得 到 
g(x) 二 一 3 log] 5. |= 3 (x! S;!x — 2x7 Sim, +m? S7'm;) + log PCC) 
它 定 义 了 一 个 二 次 判别 式 (quadratic discriminant) (参见 图 5-3) ， 也 可 以 写作 
gi(x) = x'Wax + wix+w, (5-20) 
其 中 | 
eium oe 
W,= 5 S 
w;—S;m 
w, =— =m! S;'m, — 7 log|S, |+ log PCC) 


T 


il fi Hf m 





N 


图 5-3 具有 不 同 协 方差 矩阵 的 类 。 其 中 一 个 类 的 似 然 密度 和 后 验 概率 
(顶部 )。 类 分 布 用 等 概率 等 值 线 表 示 ， 并 且 绘 出 判别 式 ( 底 部 ) 


对 于 均值 ， 需 要 估计 的 参数 为 Ke dt; 而 对 于 协 方差 矩阵 ， 需 要 估计 的 参数 为 天 ，。 
d(d 十 1)/2 个 。 当 4 大 和 且 样 本 小 时 ，5S; 可 能 是 奇异 的 ， 并 且 其 逆 可 能 不 存在 。 或 者 ，|S， 
| 可 能 不 是 零 但 是 太 小 ， 这 种 情况 会 不 稳定 ; S; 的 小 变化 会 引起 $; 的 大 变化 。 为 了 使 小 样 
本 上 的 估计 可 靠 ， 我们 可 能 希望 通过 重新 设计 特性 提取 器 和 选择 特征 子 集 ， 或 者 组 合 已 有 
特征 来 降低 维度 do RIKER 6 章 讨 论 这 样 的 方法 。 

另 一 个 可 能 的 做 法 是 汇集 数据 ， 并 对 所 有 的 类 估计 公共 协 方差 矩阵 : 


S= >) ÊC) S: (5-21) 
在 相同 协 方差 矩阵 的 情况 下 ， 式 (5-19) 化 简 为 
al) mm aa YT 7 (e m 4 dog PCO (5-22) 


2 
HTH., SAAK odi; pp T3EE 99r 2:58. SMA d(d 十 1)/2 个 。 如 果 
先 验 相 等 ， 最 佳 决策 规则 是 把 输入 指派 到 与 输入 均值 的 马 氏 距离 最 小 的 类 。 与 前 面 一 样 ， 
不 相等 的 先 验 将 边界 移 向 不 太 可 能 的 类 。 注 意 ， 在 这 种 情况 下 ， 二 次 项 x S "x 被 约 去 ， 
因为 它 出 现在 所 有 的 判别 式 中 ， 并且 决策 边界 是 线性 的 ， 导 致 线性 判别 式 (linear discrimi- 
nant) (参见 图 5-4) 可 以 写成 如 下 形式 
gi(x) — wi x rw, (5-23) 


60 


On 
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其 中 


we Sm, 
w 二 一 jm S^' m, + log P(C,) 


这 种 线性 分 类 器 的 决策 区 域 是 凸 的 ， 即 在 一 个 决策 区 域内 任意 选择 两 个 点 并 用 一 条 下 
线 连接 ， 直 线 上 的 所 有 点 都 落 在 该 区 域内 。 

通过 假定 协 方差 矩阵 的 所 有 非 对 角 线 元 素 均 为 零 ， 从 而 假定 变量 都 是 独立 的 ， 问题 可 
以 进一步 简化 。 这 是 朴素 贝 叶 斯 分 类 (naive Bayes'classifier) ， 其 中 p(x; 1C;) 是 一 元 高 斯 
Hj. S 和 它 的 逆 都 是 对 角 的 ， 并 且 有 


Te A | 
gi(x) = Bl 3 ) + log CCo (5-24) 


WC — ma 2 /s; 有 规范 化 作用 并 以 标准 差 单 位 度量 距离 。 从 几何 学 角度 来 说 ， 类 是 超 
椭圆 体 ， 并 且 因 为 协 方差 为 零 ， 所 以 它 还 是 轴 对 齐 的 (参见 图 5-5)。 参 数 的 数量 为 KR…d 
个 均值 和 4 个 方差 。 这 样 ，S BS E S EH OCA ) 降 低 为 0(d)。 
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图 5-4 协 方差 可 以 是 任意 的 ,但 是 被 两 个 类 H55 所 有 的 类 都 具有 相等 的 对 角 协 方差 ， 但 
共享 是 方差 不 相等 
如 果 我 们 假定 所 有 的 变量 是 相等 的 ， 马 氏 距 离 归 约 为 欧 氏 距离 (Euclidean distance), Aff 
么 问题 还 可 以 进一步 简化 。 在 几何 图 形 上 ， 分布 是 
球形 的 ， 并 以 均值 向 量 m; 为 中 心 ( 参 见 图 5-6)。 于 
E, lSs|—-s"HS'-—(1/s:s91, BRE K+ d 个 均 
值 和 一 


— 39. a " 
gi (x) =— i-r + log P(C;) 


d 
=- 5), (xi — mj)? + log ÊCC;) (5-25) 
; 


如 果 先 验 相等 ， 则 有 gi (x) ——|x-—ml. x 
称 为 最 近 均 值 分 类 (nearest mean classifier), A 为 图 56 所 有 类 具有 相等 的 、 在 两 个 维 上 均 具 
它 把 输入 指派 到 最 近 均 值 的 类 。 如 果 每 个 均值 看 作 有 相等 方差 的 对 角 协 方差 矩阵 
类 的 理想 原型 或 模板 ， 那么 这 就 是 模板 匹配 (tem- 
plate matching) 过 程 。 它 可 以 扩展 为 
gi(x)=— |x —m,|? =— (x—mO'(x—m) =— (x'x—2mix--mim;) (5-26) 
第 一 项 xx HARA g; OOP, AWA, 3f EL RT LEA 1] SX PRICES 
g(x) = wix+w, (5-27) 
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其 中 wm, w,=—(1/2)|m, |’. An SG I m; 有 相似 的 范 数 ， 则 wi 也 可 以 忽略 ， 并 
且 可 以 使 用 
g(x) = mix (5-28) 

当 到 的 范 数 可 比较 时 ， 也 可 以 使 用 点 积 代替 ( 负 的 ) 欧 氏 距离 作为 相似 性 度量 。 

实际 上 ， 我 们 可 以 把 寻找 最 佳 判 别 式 函 数 的 任务 看 作 寻 找 最 佳 距 离 函 数 。 这 可 以 看 作 
另 一 种 分 类 方法 : 我 们 不 是 要 学 习 判 别 式 函 数 oa), ERF DJ — e i8 B ES AD 
(xi. x2. ， 使 得 对 任意 xi. xs. xi. HP x1 ，x: 属 于 相同 的 类 ， 而 x ，xs 属 于 两 个 不 同 的 
类 ,我们 希望 有 

DCH; «X32 « DCH 4X3) 


5.6 调整 复杂 度 


ER 5-1 中 ， 我 们 看 到 如 何 减少 协 方差 矩阵 的 参数 数目 ， 如 何在 简单 模型 的 适用 性 和 
通用 性 之 间 折 中 。 这 是 偏 倚 / 方 差 两 难 选择 的 又 一 个 例子 。 当 我 们 做 简化 协 方 差 矩 阵 的 假 
设 并 减少 被 估计 的 参数 数目 时 ， 我 们 就 有 引入 偏 倚 的 风险 (参见 图 5-7)。 男 一 方面 ， 如 果 
不 做 这 种 假设 ， 并且 和 矩阵 是 任意 的 ， 则 表 5-1 通过 简化 假设 降低 方差 
二 次 判别 式 函 数 在 小 数据 集 上 会 有 很 大 
的 方差 。 理 想 情况 取决 于 已 有 数据 所 表 
示 问 题 的 复杂 度 和 我 们 所 拥有 数据 的 规 
模 。 当 我 们 拥有 小 数据 集 时 ， 尽 管 协 方 
差 矩 阵 不 同 ， 但 是 假定 共享 协 方差 矩阵 
也 许 更 好 。 单 个 协 方差 矩阵 具有 较 少 的 
参数 ， 并 且 可 以 利用 更 多 的 数据 来 估 
计 ， 即 用 所 有 类 的 实例 估计 。 这 相当 于 7 
使 用 线性 判别 式 (linear discriminant), ^? 
分 类 经 常 使 用 线性 判别 式 ， 我们 将 在 第 1 
10 章 更 详细 地 讨论 它 。 

注意 ， 当 我 们 用 欧 氏 距离 度量 相似 
性 时 ， 我 们 假设 所 有 的 变量 都 具有 相同 
的 方差 ， 并且 它 们 是 相互 独立 的 。 在 许 
多 情况 下 ， 这 并 不 成 立 。 例 如 ， 人 年龄 与 
年 收入 具有 不 同 的 单位 ， 并 且 在 许多 情 
况 下 是 依赖 的 。 在 这 种 情况 下 ， 可 以 在 
预 处 理 阶段 先 对 输入 分 别 进行 z 规范 化 
(使 之 具有 0 均值 和 单位 方差 ;5， 然 后 再 
使 用 欧 氏 距离 。 男 一 方面 ， 有 时 候 即 使 
变量 是 依赖 的 ， 如 果 我 们 没有 足够 的 数 
据 准 确 地 计算 依赖 程度 ， 也 许 最 好 还 是 
假设 它们 是 独立 的 ， 并 使 用 朴素 贝 叶 斯 
分 类 。 

Friedman(1989) 提 出 了 一 种 组 合 所 
有 这 些 特殊 情况 的 方法 ， 称 为 正则 化 判 ”图 57 拟 合 相 同 数据 的 不 同 协 方差 矩阵 导致 不 同 的 边界 






d(d+1)/2 
K(d(d+1)/2) 


总 体 似 然 与 后 验 
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别 式 分 析 (Regularized Discriminant Analysis，RDA) 。 我 们 还 记得 ， 正 则 化 方法 对 应 于 从 
大 方差 和 约束 开始 到 小 方差 的 方法 ， 有 增加 但 倚 的 风险 。 利 用 高 斯 密度 的 参数 化 分 类 方 
法 ， 协 方差 矩阵 可 以 表示 成 3 种 特殊 情况 的 加 权 平 均 : 
S; — ac! I-- BS + (1— a — DS; (5-29) 

M a 二 8 二 0 Hf, EMO XA SR. M a—0, p—1Hp, REDEE, BRAD 
Keto 4a=1, B—0 时 ， 协 方差 矩阵 是 对 角 和 矩阵 ，o” 在 对 角 线 上 ， 得 到 最 近 均 值 分 类 。 在 
这 些 极端 情况 之 间 ， 我 们 得 到 所 有 的 不 同 分 类 方法 ， 其 中 a A B 通过 交叉 验证 优化 。 

当 数 据 集 较 小 时 ， 男 一 种 正则 化 方法 是 ， 通 过 定义 j; 和 S; 上 的 先 验 ， 使 用 贝 叶 斯 方 
法 ， 或 者 使 用 交叉 验证 来 选择 表 5-1 中 给 出 的 4 种 情况 中 的 最 好 者 。 


5. 7 离散 特征 


在 许多 应 用 中 ， 有 取 nn 个 不 同 值 的 离散 属性 。 例 如 ， 一 个 属性 可 能 是 颜色 E (Zr, KK, 
绿 ， 黑 }， 男 外 一 个 可 能 是 像素 €E {有 ， 无 }。 我 们 假设 x; 是 二 元 的 ( 伯 努 利 )， 其 中 
p; = pla; = 1|C;) 
如 果 a; EAA ud. WA 


d 
po Co — ll» (le pu 
j=l 


这 是 朴素 贝 叶 斯 分 类 的 另 一 个 例子 ， 其 中 p(x; 1C;) 是 伯 努 利 分 布 。 判 别 式 函 数 是 
gi (x)— log p(x|C;) + log P(C;) 


= Y'[xjlogp; + (1 —z;)log(1 — 5;)] + logP(C,) (5-30) 
它 是 线性 的 。p; 的 估计 是 


A 


c= = (5-31) 
p x 

这 种 方法 用 于 文档 分 类 (document categorization)。 文 档 分 类 的 一 个 例子 是 把 新 闻 报 
道 分 成 不 同 的 类 别 ， 如 政治 、 体 育 、 时 尚 等 。 在 词 袋 (bag of words) 表 示 中 ， 我 们 预先 选 
$E d 个 我 们 相信 和 能够 提供 信息 的 词 (Manning 和 Schütze 1999) 。 例 如 ， 在 新 闻 分 类 中 ， 有 
用 的 词 是 作 missile, athlete 和 couture 等 这 样 的 词 ， 而 不 是 像 model 甚至 是 runaway 这 样 
有 歧义 的 词 。 在 这 种 表示 下 ， 每 个 文本 是 一 个 d 维 二 元 癌 量 ， 其 中 zj; 为 1， 如 果 第 ; 个 词 
出 现在 该 文档 中 ; md vu 0. ER: 这 种 表示 损失 了 词 的 所 有 排序 信息 ， 因 而 称 作 
wR 

WA. bs TRIPS j 个 词 出 现在 文档 类 型 i 中 的 概率 。 其 概率 在 不 同类 中 都 类 似 
的 词 不 传递 多 少 信 息 。 词 要 成 为 有 用 的 ， 我 们 希望 它 的 概率 在 一 个 (或 少数 ) 类 上 高 ， 
而 在 其 他 类 上 都 低 。 我 们 将 在 第 6 章 讨 论 这 种 类 型 的 特征 选择 (feature selection)。 文 
档 分 类 应 用 的 男 一 个 例子 是 垃圾 邮件 过 滤 (spam filtering)， 那 里 邮件 分 为 垃圾 邮件 和 
正常 邮件 两 类 。 在 生物 信息 学 ， 无 论 碱 基 对 还 是 氨基 酸 ， 输入 通常 也 都 是 离散 项 的 
序列 。 

在 一 般 情况 下 ， 假 定 zj; 选 目 集合 {vi ，v。，…，v,)}， 而 不 是 二 元 特征 。 我 们 定义 新 的 
0/1 WEAR T& 
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令 pi 表示 ;属于 类 orn 取 值 为 以 的 概率 : 
Pa = PC Zp = I C53 m pla; = UL IG) 
如 果 属 性 是 独立 的 ， 则 有 


at n 
p(x|C,) = || [| px (5-32) 
j=1 k=] 
Td. JU X RAA 
gi GO = >) > znlogpss + logP(C,) (5-33) 
j k 


pi 的 最 大 似 然 估 计 为 
izari 
Dur 


t 





Bin 一 (5-34) 


可 以 将 它们 插入 式 (5-33) 中 ， 得 到 判别 式 。 


5.8 多 元 回归 


在 多 元 线性 回归 (multivariate linear regression) 中 ， 假 定数 值 输出 7 为 线性 函数 ， 即 
多 个 输入 变量 xz，…，zy 和 噪声 的 加 权 和 。 实 际 上 ， 在 统计 学 文献 中 ， 这 称 为 多 元 回归 。 
当 存 在 多 个 输出 时 ， 统计 学 家 使 用 术语 multivariate( 多 元 ) 。 多 元 线性 模型 是 
”十 (5-35) 
与 一 元 情况 相同 ， 假 设 e EESK, BA 0 均值 和 常数 方差 ， 且 最 大 化 似 然 等 价 于 最 
小 化 误差 的 平方 和 : 


E(w, sw tw tX) = sy Ce = — ae ae {55307 
关于 参数 DW (i0, 5 d) 求 导 ， 得 到 正规 方程 (normal equation) ; 
r= Nw, + w, kN + w, » et Tou, Mj 


kr W, Yri "Fu. » Crt = Wy, > risk oS er Se > orizi 
t t t t t 


Paire W, Sl 24 + w, kr + te, * (xA l9 -Lu, b) t 
t t t t t 


X rir = w, dizi tw, D riei +w, rich te +w,>) Gi (5-37) 
定义 如 下 的 向 量 与 矩阵 : 


| 1 1 
l zi xb 99 x Wo r! 
2 
] ai z e mx w r’ 
X — 。 9 tU N 2 9 r — 
N N N 
1 a X» C Ba Was y 


于 是 ， 正 规 方程 可 以 写 为 : 
X! Xw = X'r (5-38) 
并 且 我 们 可 以 求解 参数 
w = (X'X) 'X'r (5-39) 
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这 个 方法 与 我 们 在 单个 输入 的 多 项 式 回 归 中 所 使 用 的 方法 一 样 。 如 果 和 定义 变量 为 x = 
Z，22 二 并， 飞天 ， 则 两 个 问题 是 一 样 的 。 这 也 提示 我 们 ， 如 采 需 要 如 何 做 多 元 多 
m A €) (multivariate polynomial regression) (习题 7) 。 但 是 ， 除 非 d 很 小 ， 否 则 在 多 元 
回归 中 ， 很 少 使 用 比 线性 更 高 次 的 多 项 式 。 

实际 上 ， 使 用 输入 的 高 次 项 作为 附加 输入 只 是 一 种 可 能 的 方法 ， 我 们 可 以 使 用 基 函 数 
定义 原始 输入 的 任意 非 线性 函数 。 例 如 ， 如 果 我 们 相信 这 种 变换 是 有 用 的 ， 那 么 我 们 可 以 
定义 新 的 输入 x 二 sin(x)，X; 二 exp(x*)。 然 后 ， 使 用 在 这 种 增强 空间 中 的 线性 模型 对 应 
于 原始 空间 中 的 非 线 性 模型 。 同 样 的 计算 仍然 有 效 ， 只 需 用 使 用 基 汪 数 后 的 数据 矩 阵 蔡 换 
XX。 正 如 我 们 将 在 各 种 形式 下 (例如 ， 多 层 感知 右 、 支 持 疝 量 机 、 高 斯 过 程 ) 看 到 的 ,经常 
用 这 样 的 方法 推广 线性 模型 。 

线性 模型 的 一 个 优点 是 ， 回 归 后 ， 观 察 w Cj 一 1，…，d) 的 值 ， 我 们 可 以 提取 知识 ， 
第 一 ， 观 察 w 的 符号 ， 我 们 就 知道 zx; 对 输出 结果 的 影响 是 正 的 还 是 负 的 。 第 二 ， 如 果 所 
有 的 zx; 都 具有 相同 的 值 域 ， 则 通过 观测 w 的 绝对 值 ， 我 们 就 可 以 知道 特征 的 重要 性 ， 并 
按 重要 性 为 特征 定 秩 ， 甚 至 可 以 去 掉 那 些 w 接近 于 0 的 特征 ， 

当 有 多 个 输出 时 ， 可 以 等 价 地 定义 一 组 独立 的 单 输出 回归 问题 。 


5.9 注释 


一 本 更 新 关于 线性 代数 知识 的 好 书 是 Strang 2006, Harville 1997 是 另外 一 本 很 好 的 
书 ， 它 从 统计 学 的 角度 处 理 和 矩阵 代数 。 

使 用 多 元 数据 的 一 个 不 便 之 处 是 ， 当 维 数 很 大 时 ， 不 能 够 进行 可 视 化 分 析 。 在 统计 学 
文献 中 已 经 提出 了 一 些 方法 用 于 显示 多 元 数据 。Rencher 1995 给 出 了 综述 。 一 种 可 能 的 方 
法 是 两 两 变量 绘制 二 元 散 点 图 : 如 果 数 据 是 多 元 正 态 的 ， 则 任意 两 个 变量 的 散 点 图 应 该 大 
致 是 线性 的 。 这 可 以 用 作 多 元 正 态 性 的 可 视 化 检测 。 我 们 将 在 第 6 章 中 讨论 的 男 一 种 可 能 
的 方法 ， 该 方法 把 它们 投影 到 一 维 或 两 维 上 ， 并 在 那里 显示 。 

模式 识别 的 大 部 分 工作 都 是 在 假定 多 元 正 态 密度 上 进行 的 。 有 了 时， 这样 的 判别 式 其 至 
称 为 贝 叶 斯 最 优 分 类 ， 但 是 这 通常 是 错误 的 。 只 有 当 密 度 确实 是 多 元 正 态 的 且 有 足够 的 数 
据 来 计算 正确 的 参数 时 ， 它 才 是 最 优 的 。Rencher 1995 讨论 了 评估 多 元 正 态 性 的 检验 ， 以 
及 检查 相等 协 方差 矩阵 的 检验 。MecLachlan 1992 讨论 了 用 多 元 正 态 分 布 分 类 ， 并 比较 了 
线性 和 二 次 判别 式 。 

多 元 正 态 分 布 的 一 个 明显 的 局 限 性 是 它 不 允许 某 些 特征 是 离散 数据 。 一 个 具有 个 可 
能 值 的 变量 可 以 转化 成 n 个 0/1 哑 变 量 , 但 是 这 增加 了 维度 。 我 们 可 以 用 第 6 章 中 介绍 的 
方法 ， 在 这 个 n 维 空间 上 进行 维度 归 约 ， 从 而 不 会 增加 维度 。 对 于 这 种 混合 特征 的 参数 分 
2&5, McLachlan 1992 有 详细 的 讨论 。 


5.10 “习题 


1. 证 明 式 (5-11)。 
解 : 给 定 
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. 从 多 元 正 态 密度 NN G, DPE, A m AS JEFES a ME 比较 。 检 查 样 


本 大 小 变化 时 估计 的 变化 情况 。 


.从 两 个 多 元 正 态 密 度 和 NN (Qui, E20 (i 二 1，2) 产 生 样 本 ， 并 对 表 5-1 "Pf A 种 情况 计算 贝 


叶 斯 最 优 判别 式 。 


. 对 于 两 类 问题 ， 针 对 表 5-1 中 高 斯 密度 的 4 种 情况 ， 推 导 : 


lo P(C; |x) 
8 P(C, |x) 





. 使 用 高 斯 密度 的 另 一 种 可 能 的 方法 是 令 它 们 都 是 对 角 的 ， 但 允许 它们 不 同 。 为 这 种 情 


况 推 导 判 别 式 。 


. 假设 在 二 维 空间 有 两 个 具有 相同 均值 的 类 。 可 以 定义 何 种 类 型 的 边界 ? 
. 假设 有 两 个 变量 zi 和 zz ， 想 对 它们 做 二 次 拟 合 ， 即 


f(a 922) = wj +w, xi + w, xs + wax xs + w Gn 0* + w, Gn 7? 
PA ERFAX={zi, x. r}, WARA w.Ci=0, +, 5)? 
fe: MERE 
f(a $22) = wy, + w, 21 + w, 22 + Ww, 23 + Ww, 2 + Ww, z 

其 中 ZI 一 9 9 2 z,— (n), z;— (22). TÀ, 可 以 使 用 线性 回归 学 
2] w,G —0, 1, 5), REZE Ceis zz, mi. zas zs) PHM AEWA M MS — 4E ZS [i] 
(xz1，Zz) 中 的 二 次 拟 合 。 在 第 10 章 中 ， 我 们 将 更 详细 地 讨论 这 种 广义 线性 模型 (和 其 他 
AR AG VE SE PR IO . 


. 在 回归 中 ， 我 们 看 到 拟 合 一 个 二 次 模型 等 价 于 用 对 应 于 输入 的 平方 的 附加 输入 拟 合 一 


个 线性 模型 。 对 于 分 类 ， 我 们 也 能 这 样 做 吗 ? 

解 : 可 以 。 我 们 可 以 定义 对 应 于 平方 项 和 交叉 项 的 辅助 变量 ， 然 后 使 用 线性 模型 。 
例如 ， 与 习题 7 一样 ,我们 可 以 定义 = 二 x1 mm. BHM, on, z= ln) s 
然后 使 用 线性 模型 来 学 习 w,(1—0, e, 5). ABE A(z, 22, 39 249 zs ) 中 的 线性 判别 
式 对 应 于 二 维 空间 (zx, ，z;) 中 的 二 次 判别 式 。 


. 在 文档 聚 类 中 ， 通 过 考虑 上 下 文 ， 例 如 考虑 像 "cocktail party” 与 “party elections” 中 的 


词 对 ， 可 以 减少 二 义 性 。 讨 论 如 何 实现 。 
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任何 分 类 和 回归 方法 的 复杂 度 都 依赖 于 输入 的 数量 。 这 决定 了 时 间 和 空间 的 复杂 度 以 
及 训练 这 样 的 分 类 禹 和 回归 需 所 需要 的 训练 样 例 数量 。 本 章 讨论 特征 选择 和 特征 提取 方 
法 。 前 者 选取 重要 特征 子 集 并 剪 掉 其 余 特 征 ， 而 后 者 由 原始 输入 形成 较 少 的 新 特征 。 


6.1 引言 


在 一 个 应 用 中 ， 无 论 它 是 分 类 还 是 回归 ， 我 们 相信 含有 信息 的 观测 数据 被 用 作 输 入 并 
输入 到 系统 中 做 决策 。 在 理想 情况 下 ， 我 们 不 需要 将 特征 选择 或 特征 提取 作为 一 个 单独 的 
过 程 。 分 类 方法 (或 回归 方法 ) 应 该 能 够 利用 任何 必要 的 特征 ， 而 丢弃 不 相关 的 特征 。 然 
而 ， 把 降 维 (维度 归 约 ) 作 为 一 个 单独 的 预 处 理 步 台 ， 我 们 对 此 感 兴趣 有 许多 原因 : 

e 在 大 多 数学 习 算 法 中 ， 复 杂 度 依赖 于 输入 的 维度 d 和 数据 样本 的 规模 N， 并 且 为 了 

减少 存储 量 和 计算 时 间 ， 我 们 需要 考虑 降低 问题 的 维度 。 降 低 4 也 降低 了 检验 时 推 
理 算 法 的 复杂 度 。 

e 当 决 定 一 个 输入 是 不 必要 的 时 ， 就 节省 了 提取 它 的 开销 。 

e 较 简单 的 模型 在 小 数据 集 上 更 为 鲁 棒 。 较 简单 的 模型 具有 和 较 小 的 方差 .也 就 是 说 ， 
它们 的 变化 更 少 地 依赖 于 样本 的 特殊 性 ， 包 括 噪 声 、 离 群 点 等 。 

e 当 数 据 能 够 用 较 少 的 特征 解释 时 ， 我 们 会 对 数据 背后 的 过 程 有 更 好 的 认识 ， 这 使 得 
我 们 能 够 提取 知识 。 这 些 较 少 的 特征 可 以 解释 为 组 合 产 生 观 测 特 征 的 隐藏 或 潜在 
AT. 

e 当 数 据 可 以 用 较 少 的 维 表示 而 不 丢失 信息 时 ， 我们 可 以 对 数据 绘图 ， 并 可 视 化 地 分 
析 它 的 结构 和 离 群 点 。 

降低 维度 的 主要 方法 有 两 种 : 特征 选择 和 特征 提取 。 在 特征 选择 (feature selection) 
中 ,我 们 感 兴趣 的 是 从 d 个 维 中 找 出 提供 最 多 信息 的 & 个 维 ， 并 丢弃 其 他 的 (d 一 &) 个 维 。 
作为 一 种 特征 选择 方法 ， 我们 将 讨论 子 集 选择 (subset selection), 

在 特征 提取 (feature extraction) 中 ， 我 们 感 兴趣 的 是 找 出 & 个 维 的 新 集合 ， 这 些 维 是 
原来 d 个 维 的 组 合 。 这 些 方法 可 以 是 监督 的 或 非 监督 的 ， 取 决 于 它们 是 否 使 用 输出 信息 。 
最 著名 和 最 广泛 使 用 的 特征 提取 方法 是 主 成 分 分 析 (PCA) 和 线性 判别 分 析 (LDA)。 它 们 都 
是 线性 投影 方法 ， 分 别 是 非 监 督 和 监督 的 。PCA 与 其 他 两 种 非 监督 的 线性 投影 方法 有 许 
多 相似 之 处 。 我 们 也 将 讨论 因子 分 析 (FA) 和 多 维 定 标 (MDS) 这 两 种 方法 。 当 我 们 有 两 组 
而 不 是 一 组 观测 变量 时 ， 也 可 以 使 用 典范 相关 分 析 (canonical correlation analysis) 来 找 出 
解释 二 者 依赖 性 的 联合 特征 。 作 为 非 线性 维度 归 约 的 例子 ， 我 们 将 考察 等 距 特征 映射 (Iso- 
metric feature mapping, Isomap), AIR A HE 4X A (Locally Linear Embedding，LLE) 和 拉 
普 拉 斯 特征 映射 (Laplacian eigenmaps) 。 


6.2 子 集 选择 
在 子 集 选 择 中 ， 我 们 对 发 现 特征 集中 的 最 佳 子 集 感 兴趣 。 最 佳 子 集 包 含 的 维 最 少 ， 而 
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它们 对 正确 率 的 页 献 最 大 。 我 们 丢弃 其 余 不 重要 的 维 。 使 用 合适 的 误差 函数 ， 子 集 选 择 可 
以 应 用 在 回归 和 分 类 问题 中 。& 个 变量 有 2“ 个 可 能 的 子 集 。 除 非 d 很 小 ， 否 则 我 们 不 能 对 
所 有 子 集 进行 检验 。 我 们 使 用 局 发 式 的 方法 ， 在 合理 的 (多 项 式 ) 时 间 内 得 到 一 个 合理 的 
(但 不 是 最 优 的 ) 解 。 

有 两 种 方法 : 在 向 前 选择 (forward selection) 中 ， 我 们 从 空 集 开始 ， 逐 个 添加 变量 ， 
每 次 添加 一 个 降低 误差 最 多 的 变量 ， 直 到 进一步 的 添加 不 会 降低 误差 (或 降低 很 少 )。 在 向 
后 选择 (backward selection) 中 ， 我 们 从 所 有 变量 开始 ， 逐 个 删除 它们 ， 每 次 删除 一 个 降低 
误差 最 多 (或 提高 很 少 ) 的 变量 ， 直 到 进一步 的 删除 会 显著 提高 误差 。 在 这 两 种 情况 下 ， 误 
差 检 测 都 应 该 在 不 同 于 训练 集 的 验证 集 上 进行 ， 因 为 我 们 想 要 检验 泛 化 准确 率 。 使 用 更 多 
的 特征 一 般 会 有 更 低 的 训练 误差 ， 但 是 不 一 定 有 更 低 的 验证 误差 。 

我 们 用 下 表示 输入 维 的 特征 zx;(i 二 1，…，d) 的 集合 ，E(F) 表 示 当 只 使 用 下 中 的 输入 
时 ， 在 验证 样本 上 出 现 的 误差 。 依 赖 于 应 用 ， 误差 或 者 是 均 方 误差 ,或 者 是 误 分 类 误差 。 

在 顺序 向 前 选择 (sequential forward selection) 中 ， 我 们 从 下 二 名 开始 。 在 每 一 步 ， 对 
于 所 有 可 能 的 zx;， 训 练 我 们 的 模型 并 在 验证 集 上 计算 ECFUz;)。 然 后 ， 我 们 选择 导致 最 
小 误差 的 输入 x; 

j = arg min ECF U x) (6-1) 
并 且 
wR ECF U z) < ECF), N x; 添加 到 下 (6-2) 

如 果 添 加 任何 特征 都 不 会 减少 万 ， 则 停止 。 如 果 误 差 降低 得 太 小 ， 我 们 甚至 可 以 决定 
提前 停止 。 这 里 存在 一 个 用 户 定 义 的 冰 值 ， 依 赖 于 应 用 约束 以 及 错误 与 复杂 度 的 折 中 。 增 
加 另外 一 个 特征 会 带 来 观测 该 特征 的 开销 ， 也 会 使 分 类 /回归 模型 更 加 复杂 。 

这 个 算法 也 称 作 包装 (wrapper) 方 法 ， 其 中 特征 提取 过 程 被 看 作 作 为 子 程序 " 包 囊 ”在 
mm SJ 3& AY Yb rf] (Kohavi 和 John 2007) 。 

我 们 看 一 个 例子 。 取 自 UC FE A SEA. KAERA 4 SMART. E 
类 有 50 个 实例 ， 而 我 们 使 用 20 个 作为 训练 集 ， 使 用 其 余 30 个 作为 验证 集 。 我 们 使 用 
5.5 节 的 最 近 均 值 作 为 分 类 器 ( 见 式 (5-26))。 从 单个 特征 开始 。 使 用 单个 特征 的 训练 
数据 分 别 显 示 在 图 6-1 中 。 使 用 特征 »0—4 的 一 维 空间 的 最 近 均 值 导致 的 验证 、 准 确 
率 分 别 为 0.76、0.57、0.92 和 0.94。 因 此 ， 我 们 选择 第 四 个 特征 (F4) 作 为 第 一 个 特 
征 。 然 后 ， 我 们 检查 增加 另 一 个 特征 是 否 改 进 分 类 准确 率 。 双 变量 图 显示 在 图 6-2 中 。 
在 二 维 空间 (F1，F4)、(F2，F4) 和 (F3，F4) 中 使 用 最 近 均 值 分 类 器 的 对 应 验证 准确 率 
分 别 为 0.87、0. 92 和 0.96。 因 此 ， 增 加 第 三 个 特征 F3 作为 第 二 个 特征 。 然 后 ， 我 们 
检查 添加 第 一 或 第 二 个 特征 是 否 导致 分 类 准确 率 进一步 改善 ， 在 这 两 个 三 维 空间 上 的 最 
近 均 值 分 类 器 的 验证 准确 率 都 是 0.94， 因 此 我 们 停止 ， 并 以 第 三 和 第 四 个 特征 作为 我 
们 选 定 的 特征 。 顺 便 说 一 下 ， Hem AS BrüE AY) Sar UE YE WA BY 0.94, BF ATP THF 
征 导 致 准确 率 提 高 。 

注意 ， 我 们 最 终 选 择 的 特征 高 度 依赖 于 所 使 用 的 分 类 方法 。 男 一 个 重要 点 是 ， 在 小 数 
据 集 上 ， 选 择 的 特征 可 能 还 依赖 于 把 数据 划分 成 训练 和 验证 数据 的 方式 。 因 此 ， 在 小 数据 
集 上 最 好 做 多 次 随机 的 训练 集 和 验证 集 划 分 ， 通 过 观察 平均 验证 性 能 来 确定 添加 的 特征 。 
我 们 将 在 第 19 章 讨论 这 种 再 抽样 方法 。 
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图 6-1 SRR EATEN UIA Aa, 3 个 类 以 不 同 的 符号 显示 。 可 以 看 
出 Fa 本 身 表现 出 了 相当 好 的 区 分 能 力 





F4 
图 6-2 以 F4 为 一 个 特征 ， 连 同 Fl. F2 和 F3 之 一 的 训练 数据 图 示 。 使 用 (F3，F4) 导 臻 最 佳 划分 


这 种 逐一 检查 特征 的 过 程 也 许 开 销 很 大 ， 因 为 ， 为 了 将 d 维 减少 到 k 维 ， 我 们 需要 训 
练 和 检验 系统 d 十 (d 一 1) 十 (d 一 2) 十 … 十 (d 一 k) 次 ， 其 复杂 度 为 0(d* ) 。 这 是 一 个 局 部 搜 
索 过 程 ， 并 且 不 能 保证 找到 最 佳 子 集 ， 即 不 能 保证 找到 导致 最 小 误差 的 最 小 子 集 。 例 如 ， 
志和 zi 本 身 可 能 不 好 ， 但 是 合 起 来 可 能 会 把 误差 降低 很 多 。 但 是 该 算法 是 贪心 的 ， 并 且 逐 
个 增加 特征 ， 因 此 它 也 许 不 能 发 现 z; 与 x; 的 并 。 以 更 多 计算 为 代价 ,一 次 增加 多 个 而 不 是 
一 个 特征 是 可 能 的 。 我 们 还 可 以 在 当前 添加 之 后 回溯 并 且 检 查 以 前 添加 的 哪个 特征 可 以 去 
掉 ， 这 增 大 了 搜索 空间 但 是 也 增加 了 复杂 度 。 在 浮动 搜索 (floating search) 方 法 中 (Pudil， 
Novovicova 和 Kittler 1994)， 每 一 步 还 可 以 改变 增加 的 和 去 掉 的 特征 数量 。 

在 顺序 向 后 选择 (sequential backward selection) 中 ， 我们 从 包括 所 有 特征 的 下 开始 并 
执行 类 似 的 过 程 ， 但 是 与 添加 相反 ， 我 们 从 FF 中 去 掉 一 个 特征 ， 并 去 掉 导 致 最 小 误差 的 
那个 

j = arg min ECF — zi) (6-3) 


LENS 


同时 
dn ECF U xj) — ECP) WMA F PER, (6-4) 

如 果 去 掉 特 征 不 能 降低 误差 ， 我们 就 停止 。 为 了 降低 复杂 度 ， 我们 可 以 决定 去 掉 一 个 
特征 ， 如 果 去 掉 它 只 导致 误差 稍微 增加 。 

向 前 搜索 的 所 有 可 能 变 体 对 于 向 后 搜索 也 是 可 行 的 。 向 后 搜索 与 向 前 搜索 具有 相同 的 
复杂 度 。 但 是 ， 训 练 具有 较 多 特征 的 系统 比较 训练 具有 较 少 特征 的 系统 开销 更 大 。 如 有 果 我 
们 预料 有 许多 无 用 的 特征 时 ， 则 回 前 搜索 更 可 取 。 

子 集 选择 是 监督 的 ， 因 为 输出 被 回归 器 或 分 类 需 用 来 计算 误差 ， 但 是 它 可 以 用 于 任何 
回归 和 分 类 方法 。 在 多 元 正 态 分 类 的 特殊 情况 下 ， 如 果 原 来 的 d 维 类 密度 是 多 元 正 态 的 ， 
则 其 任意 子 集 也 是 多 元 正 态 的 ， 并 且 仍 然 可 以 使 用 参数 分 类 ， 并 具有 用 有 Xk 协 方差 矩阵 
IK d x d 协 方差 矩阵 的 优点 。 

在 人 脸 识别 这 样 的 应 用 中 ， 特 征 选择 不 是 降 维 的 好 方法 ， 因 为 个 体 像 素 本 身 并 不 携带 
很 多 识别 信息 ;携带 脸 部 识别 信息 的 是 许多 像素 值 的 组 合 。 这 可 以 通过 后 面 将 要 讨论 的 特 
征 提取 方法 来 实现 。 


6.3 主 成 分 分 析 


在 投影 方法 中 ， 我 们 感 兴趣 的 是 找到 一 个 从 原 4d 维 输入 空间 到 新 的 &(k 二 a) 维 空间 
的 、 具 有 最 小 信息 损失 的 映射 。x ÆDE w 上 的 投影 为 
z= w'x (6-5) 
+= RFF (Principal Component Analysis，PCA) 是 一 种 非 监督 方法 ， 因 为 它 不 使 用 
输出 信息 ; 需要 最 大 化 的 准则 是 方差 。 主 成 分 是 这 样 的 w;! ， 样 本 投影 到 wi 上 之 后 最 分 
散 ， 使 得 样本 点 之 间 的 差别 变 得 最 明显 。 为 了 得 到 唯一 解 且 使 该 方向 成 为 最 重要 因素 ， 我 
们 要 求 上 wi 二 1。 从 式 (5-14) 我 们 知道 ， 如 果 2, = wx H Cov(x)=&, W 
Var(zi) = w: Dw 
寻找 wi. W4 Var ) 在 约束 w w,—1 下 最 大 化 。 将 这 写成 拉 格 朗 日 问题 ， 则 有 : 


max w! Dw, —a(w} wi — 1) (6-6) 


KF wu RSHCESF OO, A 
25w, —2aw; = 0, Ak Dw, = av, 
如 果 wE CMR, a 是 对 应 的 特征 值 ， 则 上 式 成 立 。 因 为 我 们 想 最 大 化 
w, Dw, = aw, wi = a 

所 以 为 了 方差 最 大 ， 我 们 选择 具有 最 大 特征 值 的 特征 向 量 。 因 此 ， 主 成 分 是 输入 样本 的 协 
方差 矩阵 的 具有 最 大 特征 值 A 二 a 的 特征 问 量 。 

第 二 个 主 成 分 w; 也 应 该 最 大 化 方差 ， 具 有 单位 长 度 ， 并 且 与 wi 正 交 。 后 一 个 要 求 是 
使 得 投影 后 z, 二 wix 与 zi 不 相关 。 对 于 第 二 个 主 成 分 ， 有 


max w, Dw, —a(w; w: — 1) — B(w, w: — 0) (6-7) 
KF wok FHOCESF 0, A 
2>w> = Zaw, — pw; = 0 (6-8) 


用 wi 左 乘 ， 得 到 
2w Sw. 一 2az w: — pw, w, = 0 


注意 wlw,—0, wilw, 是 标量 ， 等 于 它 的 转 置 w; lw, KEAN w Æ X WERE 
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[5] && , 所 以 Dw, =A, w1. 所 以 
wi lw, = w;Ew|;-—Aw;w:;-—0 
于 是 8==0， 且 式 (6-8) 可 以 简化 为 
LW, = aw, 

这 表明 w; 应 该 是 也 的 具有 第 二 大 特征 值 4; 二 a 的 特征 向 量 。 类 似 地 ， 我 们 可 以 证 明 其 他 
维 被 具有 递减 特征 值 的 特征 向 量 给 出 。 

因为 互 是 对 称 的 ， 所 以 对 于 两 个 不 同 的 特征 值 ， 特 征 向 量 是 正 交 的 。 如 果 互 正定 的 
(对 于 所 有 的 非 零 x，x 至 二 0)， 则 它 的 所 有 特征 值 都 是 正 的 。 如 果 马 是 奇异 的 ， 则 它 的 
秩 ( 有 效 维 数 ) 为 有 ， 且 kd, A;G=k+1, «+, 03999 OCALELUÉ RU REHEO ; E 个 具有 非 零 
特征 值 的 特征 回 量 是 约 化 空间 的 维 。 第 一 个 特征 向 量 ( 具 有 最 大 特征 值 的 向 量 )z; ( 即 为 主 
成 分 ) 贡 献 了 方差 的 最 大 部 分 ， 第 二 个 贡献 了 方差 的 第 二 大 部 分 ， 以 此 类 推 。 

我 们 定义 

z = W" (x— m) (6-9) 

RUBWÉSERSXISHEA THERE. HE DATA. ERMA x 中 减 去 样本 均值 mm， 将 
数据 在 原点 中 心 化。 线性 变换 后 ， 我 们 得 到 一 个 维 空间 ， 它 的 维 是 特征 癌 量 ， 在 这 些 新 维 
上 的 方差 等 于 特征 值 (参见 图 6-3)。 为 了 规范 化 方差 ， 可 以 除 以 特征 值 的 平方 根 。 


x, % 


一 > 


X, Z 


图 6-3 主 成 分 分 析 使 样本 中 心 化 ， 然 后 旋转 坐标 轴 与 最 大 方差 方向 一 致 。 如 果 z。 
上 的 方差 太 小 ， 则 可 以 忽略 它 ， 并 且 我 们 得 到 从 二 维 到 一 维 的 维度 归 约 


让 我 们 来 看 另 一 种 推导 : 我 们 想 要 找到 一 个 矩阵 WW， 使 得 当 z = W x (假设 不 失 一 般 
性 ，x 已 经 被 中 心 化 ) 时 ， 将 得 到 Cov(z) 王 D， 其 中 卫 是 任意 对 角 和 矩阵 。 也 就 是 说 ， 我 们 
希望 得 到 不 相关 的 z;。 
如 果 形 成 一 个 dXd EEC, HB i WES 的 规范 化 特征 向 量 c;， 则 CCCI, 并 且 
S= Scc 
= Sc Cz ,**,6,2C. 
= ($c Se ,-*,Sc,) €T 
= (AiCi Aza s" Agta IC™ 
= Aicic! +A exe) 
= CDC' (6-10) 
其 中 也 是 对 角 和 矩阵 ， 其 对 角 线 元 素 是 特征 值 1 o Aa XRH S 的 谱 分 解 (Spectral de- 
composition) 。 由 于 C 是 正 交 的 ， 并 且 CC'=C'C=I, MUATWAERARC, ARV 
C， 得 到 
csc = D (6-11) 
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我 们 知道 如 果 xz 二 W x, W Cov(z) =W" SW， 我们 希望 它 等 于 一 个 对 角 和 矩阵 。 于 是 ， 
从 式 (6-11) 我 们 看 到 ， 可 以 令 W=C。 

让 我 们 看 一 个 例子 ， 以 便 得 到 一 些 直 观 体 验 (Rencher 1995); 假设 我 们 有 一 个 班 学 生 
的 5 门 课程 的 成 绩 ， 并 且 我 们 希望 对 这 些 学 生 排 序 。 也 就 是 说 ， 我 们 希望 把 这 些 数据 投影 
到 一 个 维 上 ， 使 这 些 数据 点 之 间 的 差别 最 明显 。 我 们 可 以 使 用 PCA。 具 有 最 大 特征 值 的 
特征 向 量 是 方差 最 大 的 方向 ， 也 就 是 学 生 最 为 分 散 的 方向 。 这 样 做 比 计 算 平 均值 好 ， 因 为 
我 们 考虑 了 方差 的 相关 性 和 区 别 。 


在 实践 中 ， 即 使 所 有 特征 值 都 大 于 0， 但 是 如 果 |8| 很 小 (注意 [S] — |[4;，， 那 么 我 


们 知道 ， 某 些 特 征 值 对 方差 影响 很 小 ， 并 且 可 以 丢弃 。 因 此 ， 我 们 考虑 ， 贡 献 900% 以 上 方 
差 的 前 个 主 成 分 。 当 如 按 降序 排列 时 ， 由 前 个 主 成 分 贡献 的 方差 比例 (proportion of 
variance) 为 
Ay t Àa F +A, 
ki TAa oe A A 

WREE REHAR, ELA R/P— GB E E ERA BOK RPE k 远 比 4 小 ， 
并 且 可 能 得 到 很 大 的 维度 归 约 。 在 许多 图 像 和 语音 处 理 任务 中 ,通常 是 这 种 情况 ， 其 中 
(时 间或 空间 ) 邻 近 的 输入 是 高 度 相 关 的 。 如 果 维 之 间 互 不 相关 ， 则 将 与 4 一 样 大， 通过 
PCA 就 没有 增益 。 

碎 石 图 (scree graph) 是 把 贡献 的 方差 作为 特征 向 量 编号 的 图 数 的 图 形 ( 参 见 图 6-4)。 
通过 可 视 化 分 析 ， 我 们 也 可 以 确定 在 “拐点 ”处 ， 增 加 其 他 特征 向 量 不 会 显著 地 增加 对 
方差 的 贡献 。 
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特征 向 量 
a) Optdigits 的 碎 石 图 
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特征 向 量 
b) 所 贡献 方差 的 比例 


图 6-4 a) MAA. b) 对 于 取 自 UCI 知识 库 的 Optdigits 数据 集 ， 显 示 所 贡献 的 方差 比例 。Optdig- 
its 是 手写 数字 数据 集 ， 具 有 10 个 类 和 64 维 输 入 。 前 20 个 特征 向 量 贡 献 了 90% 的 方差 
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另 一 个 可 能 的 方法 是 忽略 那些 特征 值 小 于 平均 输入 方差 的 特征 向 量 。 给 定 24 = 2,5 


Ce TR S 的 迹 ， 记 作 tr(S))， 平 均 特 征 值 等 于 平均 输入 方差 。 当 我 们 仅 保留 特征 值 大 于 
平均 特征 值 的 特征 回 量 时 ， 我 们 仅 保 留 了 那些 其 方差 大 于 平均 输入 方差 的 特征 向 量 。 

如 果 原 始 净 维 的 方差 变化 显著 ， 则 它们 对 主 成 分 方向 的 影响 比 相 关 性 大 。 因 此 ， 一 个 
公共 过 程 是 在 使 用 PCA 前 对 数据 进行 预 处 理 ， 使 得 每 个 维 都 具有 0 均值 和 单位 方差 。 或 
者 ， 为 了 使 相关 性 而 不 是 单个 方差 起 作用 ， 可 以 使 用 协 相 关 性 矩阵 R 而 不 是 协 方差 矩阵 S 
的 特征 回 量 。 

PCA 解释 方差 并 对 离 群 点 很 敏感 : 少量 远离 中 心 的 点 对 方差 有 很 大 影响 ， 从 而 也 对 
特征 向 量 有 很 大 影响 。 重 棒 的 估计 (robust estimation) 方 法 允许 计算 离 群 点 存在 时 的 参数 。 
一 种 简单 的 方法 是 计算 数据 点 的 马 氏 距离 ， 丢 弃 那 些 远 离 的 孤立 数据 点 。 

如 果 前 两 个 主 成 分 贡献 方差 的 很 大 百分比 ， 则 我 们 可 以 做 可 视 化 分 析 : 我 们 可 以 在 这 
个 二 维 空间 绘制 数据 (参见 图 6-5)， 可 视 化 地 搜索 结构 、 分 组 、 离 群 点 、 正 态 性 等 。 相 对 
于 原来 的 任何 两 个 变量 的 图 ， 该 图 对 样本 给 出 了 更 好 的 图 形 描述 。 通 过 观察 主 成 分 的 维 ， 
我 们 还 可 以 试 着 揭示 一 些 有 意义 的 描述 数据 的 基础 变量 。 例 如 ， 在 图 像 应 用 中 ， 输 入 是 图 
像 ， 特 征 向 量 可 以 显示 为 图 像 ， 并 且 可 以 看 作 重 要 特征 的 模板 。 它 们 常常 被 形象 地 称 为 
“特征 面孔 ”(eigenface)、“ 特 征 数 字 ”(eigendigit) 等 (Turk 和 Pentland 1991), 


PCA 后 的 Optdigits 


20r: 


个 特征 向 量 
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图 6-5 绘制 在 两 个 主 成 分 空间 的 Optdigits 数据 。 只 显示 了 100 个 数据 点 的 标号 ， 以 便 最 小 化 墨 燥 比 


(ink-to-noise ratio) 
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从 式 (5-15) 我 们 知道 ， 如 果 x~ nap, D, WHI Wx~ wn. (W'p, WEW). üll 
果 样 本 是 d 元 正 态 的 ， 则 它 投影 到 《元 正 态 上 ， 人 允许 我 们 在 很 有 希望 的 、 低 得 多 的 维 空间 
进行 参数 判别 分 析 。 因 为 诸 zx; 是 不 相关 的 ， 所 以 新 的 协 方 差 矩 阵 将 是 对 角 的 。 如 果 它 们 被 
规范 化 ， 具 有 单位 方差 ， 则 可 以 在 这 个 新 的 空间 使 用 欧 氏 距离 以 便 导 出 简单 的 分 类 器 。 

实例 x’ 投影 到 x 空间 

2 = W(x — p) 
34 W EEE MEG WW" = 工时 ， 它 可 以 逆 投 影 到 原来 的 空间 : 
X —Wz'--u 

Bf x fes 空间 中 的 表示 的 重 构 。 我 们 知道 ， 在 所 有 正 交 线 性 投影 中 ，PCA 最 小 化 

重 构 误差 (reconstruction error)。 重 构 误 差 是 实例 与 它 到 低 维 空间 重 构 之 间 的 距离 : 


2 lx 一 人 | | (6-12) 


如 前 所 述 ， 每 个 特征 向 量 的 贡献 由 它 的 特征 值 给 定 ， 因此 保留 具有 最 大 特征 值 的 特征 
问 量 是 有 意义 的 。 对 于 维度 归 约 ， 如 果 丢 奔 某 些 具 有 非 零 特 征 值 的 特征 向 量 ， 则 有 重 构 误 
差 ， 并且 误 差 的 大 小 取决 于 被 丢弃 的 特征 向 量 的 特征 值 。 在 可 视 化 识别 应 用 中 (例如 ， 人 
ERI, moni 使 我 们 能 够 可 视 化 地 检查 PCA 期 间 的 信息 损失 。 

PCA 是 非 监督 的 ， 并 且 不 使 用 输出 信息 。 它 是 一 个 一 组 Cone-group) 过 程 。 然 而 ， 在 
分 类 情况 下 会 有 很 多 组 ，Karhunen-Loeve 扩展 (Karhunen-Loave expansion) 允许 利用 类 信 
Es 例如 ， 我 们 不 是 使 用 整个 样本 的 协 方差 矩阵 ， 而 是 估计 每 个 类 的 协 方差 矩阵 ， 取 它们 
的 平均 (用 先 验 加 权 ) 作 为 协 方差 矩阵 ， 并 使 用 它 的 特征 向 量 。 

在 公共 主 成 分 (common principal component) 中 (Flury 1988) ， 假 设 对 于 每 个 类 ， 主 成 
分 都 是 相同 的 ， 但 是 对 于 不 同 的 类 ， 这 些 成 分 的 方差 不 同 : 

S, DEC 

这 种 方法 允许 汇聚 数据 ， 并 且 是 一 种 正则 化 方法 ， 它 的 复杂 度 比 所 有 类 都 使 用 公共 协 
方差 矩阵 的 方法 小 ， 同 时 仍 允 许 诸 $; 存 在 差别 。 一 种 相关 的 方法 是 柔性 判别 分 析 (flexible 
discriminant analysis) (Hastie, Tibshirani 和 Buja 1994)， 它 将 数据 线性 投影 到 所 有 特征 
都 不 相关 的 低 维 空间 ， 再 使 用 最 小 距离 分 类 天 。 


6.4 FERA 


回想 一 下 ,，X ZEN Xd RHE, Hp N 是 实例 数 ，d 是 输入 维度 。x 的 协 方差 矩阵 
fed Xd i}, 并且 (不 失 一 般 性 ) 如 果 关 已 经 中 心 化 ， 具 有 零 均 值 ， 则 该 矩阵 等 于 XTX, X 
成 分 分 析 使 用 XTX 的 特征 向 量 。 谱 分 解 是 
XTX = WDW' (6-13) 
Hp, Wied Xd EE, FAC WAN AA X X 的 特征 向 量 ; D 是 具有 对 应 特征 值 的 a X 
d 对 角 和 矩阵 。 假 定 特 征 问 量 已 经 按 特征 值 排 序 ， 使 得 W 的 第 一 列 是 具有 Di 中 最 大 特征 值 
的 特征 向 量 ， 以 此 类 推 。 如 果 X" X 的 秩 为 kd4， 则 对 于 i>k 有 Di 二 0，。 
假设 我 们 想 要 将 维度 归 约 到 有 二 d。 正 如 我 们 在 前 面 看 到 的 ， 在 PCA 中 ,我 们 取 W 的 
前 & 列 ( 具 有 最 大 特征 值 )。 我 们 将 这 些 列 记 作 w;， 而 它们 的 特征 值 记 作 4;， —1. ts ko 
通过 取 原 始 输入 与 特征 回 量 的 点 积 ， 上 映射 到 新 的 & 维 空间 : 
zi = wix',t = Loe skst = lye N (6-14) 
给 定 A A w de X" X 的 特征 值 和 特征 向 量 ， 对 于 任意 imb. A 
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(X! X) w; = Aw; 
Awe X. 193i 
(XX! ) Xw, = A;Xw, 
因此 ，Xw, 一 定 是 XX' 的 具有 相同 特征 值 的 特征 向 量 (Chatfield 和 Collins 1980), i 
意 ，X'X 是 dXd 的, m XX Æ NXN 的 。 
它 的 谱 分 解 为 : 
XX" = VEV” (6-15) 
HE+, VÆNXN 矩阵， 其 列 由 XX" 的 特征 向 量 组 成 ; 而 瑟 是 NXN 对 角 和 矩阵 ， 具 有 对 
应 的 特征 值 。XX 的 N 维特 征 癌 量 是 新 的 特征 谱 入 (feature embedding) 空 间 的 坐标 。 
注意 : 特征 向 量 通 常 被 规范 化 ， 具 有 单位 长 度 ， 因 此 如 果 XX- 的 特征 向 量 是 w (具有 
相同 的 特征 值 )， 则 有 
0; 1 
因为 Xw; 的 平方 和 为 4;。 因 此 ， 如 果 我 们 已 经 计算 了 wi(V 的 第 i 列 )， 并且 想 要 得 到 Xw, ( 即 
做 PCA 所 做 的 事 )， 则 应 当 乘 以 特征 值 的 平方 根 : 
= Vi; WN 1k (6-16) 
当 g<N 时 (通常 如 此 )， 使 用 XIX( 即 使 用 PCA) 较 为 简单 。 有 时 dN, EMH XX RE 
为 容易 。XX 是 NXN 矩阵。 例如 ， 在 特征 面孔 方法 中 (Turk 和 Pentland 1991) ， 面 部 图 
(RE 256 X256=65 536 维 的 ， 而 只 有 40 个 面部 图 像 ( 有 10 个 人 , 每 人 取 4 个 图 像 )。 注 
意 ， 秩 不 可 能 超过 min(d，N)。 即 ,在 人 脸 识 别 这 个 例子 中 ， 尽 管 协 方差 矩阵 是 65 536 X 
65 536 的 ， 但 是 我 们 知道 秩 ( 特 征 值 大 于 0 的 特征 向 量 数 ) 不 可 能 超过 40。 因 此 ， 我 们 可 以 
使 用 40X40 的 矩阵 ， 并 使 用 这 个 40 维 空间 中 的 新 坐标 。 例 如 ， 使 用 最 近 均 值 分 类 法 进行 
识别 (Turk 和 Pentland 1991)。 在 生物 信息 学 的 大 部 分 应 用 中 ， 人 情况 也 如 此 。 在 这 些 应 用 
中 ， 基 因 序 列 可 能 很 长 ， 但 是 样本 很 小 。 在 文本 聚 类 中 ， 词 的 数量 可 能 远 超 过 文档 的 数 
量 。 在 电影 推荐 系统 中 ， 电 影 的 数量 可 能 远 多 于 顾客 的 数量 。 
然而 ， 需 要 附带 说 明 的 是 对 于 PCA, 我 们 学 习 投 影 向 量 ， 并 且 可 以 通过 取 与 特征 
癌 量 的 点 积 把 任何 新 的 x 映射 到 新 空间 一 一 我 们 有 一 个 投影 模型 。 使 用 特征 舱 入 做 不 到 这 
点 ， 因 为 没有 投影 向 量 一 一 没有 学 习 投 影 模 型 ， 而 是 直接 得 到 坐标 。 如 果 我 们 有 新 的 检验 
数据 ， 则 应 当 把 它们 添加 到 和 中， 并 重 做 这 种 计算 。 
XX WRG, DETR i 和 第 7 PEN AAR, BOX (0, Hpi, jl. 
N。 如 采 把 点 积 看 作 度 量 向 量 之 间 的 相似 性 ， 则 可 以 把 敌人 看 作 这 样 一 种 方法 : 把 实例 放 
入 上 & 维 空间 中 ， 使 得 新 空间 中 的 逐 对 相似 性 遵从 原来 的 逐 对 相似 性 。 稍 后 ， 我 们 将 再 次 探 
— 在 6.7 市 ， 我 们 讨论 多 维 定 标 ， 那 里 我 们 使 用 向 量 之 间 的 欧 氏 距离 而 不 是 点 
A; 766.10 WA 6.12 节 ， 我 们 分 别 讨论 等 距 特 征 映射 和 拉 普 拉 斯 特征 映射 那里 我 们 考 
虑 相似 性 ( 相 异 性 ) 的 非 欧 氏 度 量 。 


6.5 因子 分 析 
在 PAC 中， 从 原始 的 维 x; (i 一 1，…，d)， 形 成 一 个 新 的 变量 集 z, EH xz; 的 线性 
组 合 


EH: 
z= W'(x—p) 
在 因子 分 析 (Factor Analysis，FA) 中 ， 我 们 假定 有 一 个 不 可 观测 的 潜在 因子 (latent 


76 


*»* 


factor) z;(j —1, =, 上) 的 集合 ， 它 们 在 组 合 时 生成 x。 因 此 ， 与 PCAN AMARA HW 
图 6-6)， 其 目标 是 通过 较 少 的 因子 刻画 观测 变量 之 间 的 依赖 性 。 
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K 6-6 ” 主 成 分 分 析 方 法 产生 新 的 变量 ,它们 是 原始 输入 变量 的 线性 组 合 。 然而 ， 在 因子 


假设 有 一 个 变量 组 ， 它 们 之 间 具 有 高 度 相 关 性 ， 而 与 其 他 所 有 变量 都 具有 很 低 的 相 
关 性 。 那 么 可 能 存在 一 个 给 出 这 些 变量 起 源 的 简单 的 基础 因子 。 如 果 其 他 变量 也 能 够 类 
似 地 划分 成 子 集 ， 则 少数 因子 就 能 够 代表 这 些 变量 组 。 虽 然 因子 分 析 总 是 把 变量 划分 成 
因子 簇 ， 但 是 这 些 因子 是 否 意味 着 什么 ， 或 是 否 真 的 存在 ， 仍 然 是 一 个 悬而未决 的 
问题 。 

像 PCA 一 样 ，FA 也 是 一 个 一 组 过 程 ， 并 且 是 非 监督 的 。 目 标 是 在 一 个 更 小 的 维 空间 
中 对 数据 建 模 而 不 丢失 信息 。 在 FA 中 ， 这 用 作 变 量 之 间 的 相关 性 度量 。 

正如 在 PCA 中 一 样 ， 我 们 有 样本 X= 二 {x'},， 取 自 某 个 未 知 的 概率 密度 ， 其 中 ELx |= 
H. Cov(x)=5, 假定 因子 是 单位 正 态 的 ， E[z;]^0, Var(z;)—1,; 并 且 是 不 相关 的 ， 
Cov(z;，z;) 二 0，i 关 j。 为 了 说 明 什 么 是 不 能 由 因子 解释 的 ， 每 个 输入 有 一 个 附加 的 源 ， 
记 作 e;。 假 定 它 具 有 0 均值 E[e; ] —0 和 某 个 未 知 的 方差 Var(e;) 二 Jy。 这些 特 殊 的 源 之 间 
是 不 相关 的 ，Cov(e;，e;)= 二 0，i 关 7， 并 且 与 因子 也 是 不 相关 的 ，Cov(e;，z;) 二 0，VYi, jo 

FA 假定 每 个 输入 维 zx;(i= 二 1，…，4d) 都 可 以 写成 二 4d 个 因子 xz; 二 1，…， 上) 的 加 权 
和 ， 加 上 残 差 项 (参见 图 6-7) : 

Li — pi = Vazi + viz; t t + vaz, de Vi — 1,.,d 


Zi — pi = S ons T ei (6-17) 
x iT ELS poc 16 HA PEE 3k 
x—p=Vzt+e (6-18) " x 
其 中 V 是 dXK 权 重 矩阵 ， 称 作 因子 载荷 (fac- AL 
tor loading) 。 从 现在 开始 ， 不 失 一 般 性 ， 候 = 
设 p 二 0。 我 们 总 能 在 投影 后 加 上 pe A 


Var(z;) —1 和 Var(e;)= V; 
Var(z;) = vi tung +e + - 3 X 
(6-19) 


: 图 6-7 因子 是 独立 的 、 单 位 正 态 的 ， 它 们 被 延 
2 v 是 公共 因子 贡献 的 方差 ， 而 p Æt 伸 、 旋 转 和 平移 ， 以 成 为 输入 
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Zi 的 方差 。 
及 用 向 量 和 矩阵 形式 ， 有 
Z= Cov(x) = Cov(Vz +€) (6-20) 
= Cov(Vz) + Cove) 
= VCov(z)V! + Y 
= VVT + y (6-21) 
其 中 WET ARE. ENARE, ATA FEAT. HUES, MUA Cov(z)=I, 
例如 ， 对 于 两 个 因子 
Cov(r;, £2) vi Vai T viz vs 
如 果 zl 和 zs 的 协 方差 高 ， 则 它们 通过 一 个 因子 相关 。 如 果 是 第 一 个 因子 ， 则 vi va 
都 高 ; 如 果 是 第 二 个 因子 ， 则 viz 和 V22 都 高 。 在 这 两 种 情况 下 ， 其 和 Uii Va 十 viz vzz 都 将 
高 。 如 果 该 协 方差 低 ， 则 zx; 和 xz; 依赖 于 不 同 的 因子 ， 并 且 在 和 式 的 乘积 中 ， 一 项 高 而 男 
一 项 低 ， 而 它们 的 和 低 。 
我 们 看 到 
Cov 522) = Cov dy, 25 522) = Vy Varles) = Ws 
因此 ，Cov(x，z) 二 V， 并 且 我 们 看 到 载 答 用 因子 表示 变量 之 间 的 相关 性 。 
we VAIS. Bel Ae Bok He VAY. WE 
S=VW'+W 
如 果 只 有 少量 因子 ， 即 如 果 V 只 有 少数 几 列 ， 则 因为 了 是 &xR 的 而 更 有 da 个 值 ， 我 
们 就 能 有 一 个 关于 S 的 简化 结构 ， 从 而 参数 的 数量 从 d^ PB d * kd. 
因为 更 是 对 角 的 ， 所 以 协 方差 由 Y 表示 。 注 意 ，PCA 不 允许 单独 的 更 并 且 试图 考虑 
协 方差 和 方差 。 当 所 有 的 y; 相 等 时 ， 即 当 w—gI 时 ， 得 到 概率 PCA (probabilistic PCA) 
(Tipping 和 Bishop 1997)， 而 当 yi 为 0 时 ， 得 到 传统 的 PCA。 
现在 ， 让 我 们 来 看 看 怎样 找到 因子 载荷 和 特定 的 方差 : 我 们 首先 忽略 更 。 然 后 ， 从 它 
的 谱 分 解 ， 我 们 知道 
S= CDC! = CO DY CT = (CD? (CD? )T 
其 中 ， 通 过 观察 贡献 的 方差 比例 ， 我 们 只 取 上 个 特征 向 量 ， 使 得 C 是 4d Xk 特征 向 量 和 矩阵 ， 
ij D'^3& box k 对 角 和 矩阵 ， 其 对 角 线 上 的 值 是 特征 值 的 平方 根 。 这 样 ， 我 们 有 
Veg (6-22) 
从 式 (6-19) 可 以 得 到 gi 


p= Dey (6-23) 
注意 : V 与 任 一 正 交 和 抢 阵 ( 即 具 有 TT = 工 性 质 的 矩阵) 相 乘 ， 它 就 是 另 一 个 有 效 解 ， 
因此 解 不 是 唯一 的 。 
wh 
如 果 工 是 正 交 和 矩阵 ， 则 到 原点 的 距离 不 变 。 如 果 z— Tx. M 
aTa = (Ie) Cie) = T Te == RK 
乘 以 一 个 对 角 和 矩阵 具有 旋转 坐标 轴 的 效果 ， 这 人 允许 我 们 选择 最 可 解释 的 坐标 集合 
(Rencher 1995) 。 在 二 维 中 ， 
cos? — sin$ 
r= | | 


sing cos? 
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将 坐标 旋转 % 度 。 有 两 种 类 型 的 旋转 : 在 正 交 旋转 中 ， 旋 转 后 因子 仍然 正 交 ， 而 在 斜 旋转 
中 ， 人 允许 因子 变 成 相关 的 。 旋 转 因 于 为 每 个 变量 在 尽 可 能 少 的 因子 上 给 出 最 大 载荷 ， 使 得 
因子 可 解释 。 然 而 ， 可 解释 性 是 主观 的 ， 不 应 该 用 来 强加 个 人 对 数据 的 偏见 。 

因 了 于 分 析 有 两 种 用 法 。 当 我 们 找到 载荷 并 且 试图 使 用 较 少 因子 表示 变量 时 ， 它 可 以 用 
来 提取 知识 。 当 <d 时 ， 它 也 可 以 用 来 降低 维度 。 我 们 已 经 看 到 第 一 种 用 法 是 怎么 做 的 。 
现在 ， 让 我 们 看 一 看 如 何 使 用 因子 分 析 来 降低 维度 。 

当 我 们 对 维度 归 约 感 兴趣 时 ， 我 们 需要 能 够 从 z; 发 现 因子 得 分 = 。 我 们 希望 找到 载荷 
ws. TER 


d 
Zj — 200,2 le; oJ — l,e, k (6-24) 
i=] 


其 中 2 BPD, RAHE O0. RAI, HPM 上 ， 这 可 以 写作 
z' —CW'x-Fg,Vt — 1,-,N 
这 是 一 个 线性 模型 ， 有 4 个 输入 和 A 个 输出 。 其 转 置 可 以 写作 
(2)? = WYW 4-8, Vt — 1, N 
给 定 一 个 N 个 观测 的 样本 ， 我 们 记 
Z=XW+8 (6-25) 
Hp Z EAF NXk ERE, X ECU EI) A Nod 矩阵， 而 号 是 0 均值 噪声 的 N Xk 
和 矩阵。 这 是 一 个 具有 多 输出 的 多 元 线性 回归 ， 并 且 从 5. 8 节 知 道 ， 我 们 可 以 求解 W 得 到 
W = (X'X) 'X"Z 

但 是 我 们 不 知道 Z， 它 是 要 计算 的 。 在 两 边 同时 乘 以 和 除 以 N 一 1， 得 到 








Tae ee 
| XX ) AZ 
IN — 1 M —1 
= gy (6-26) 
FF AE SK (6-26) fA XX (6-25), BRE S ESF Ar AM, Bic 
Z = XW = XS V (6-27) 


M 7c RMA A BTN, AWA RRS. 

对 于 维度 归 约 ， 除 了 人 允许 识别 公共 原因 、 简 单 解 释 和 知识 提取 的 因子 可 解释 性 外 ， 与 
PCA 相 比 FA 并 无 优势 。 例 如 ， 在 语音 识别 中 ，x 对 应 于 声音 信号 ， 但 是 我 们 知道 这 是 少 
数 的 发 音 器 官 ， 即 显 、 舌 、 软 有 舞 ， 嘴 展 和 口腔 ，( 非 线性 ) 相 互 作 用 的 结果 ， 它 们 被 适当 地 
定位 以 便 形 成 从 肺 部 出 来 的 气流 从 而 产生 语音 。 如 果 语 音信 和 号 可 以 转换 到 这 个 发 音 分 析 的 
空间 ， 则 语音 识别 就 会 非常 容易 。 使 用 这 种 生成 模型 是 当前 语音 识别 的 研究 方向 之 一 。 在 
第 14 章 ， 我 们 将 讨论 如 何 用 图 形 模型 来 表示 这 种 模型 。 


6.6 奇异 值 分 解 与 矩阵 分 解 


给 定 NX d BRIE MEX, WSR d 二 N 则 用 XTX, WIR N<d 则 用 XX", X"X 和 XX" 都 是 
方 了 泗 ， 并 且 在 这 两 种 情况 下 ， 谱 分 解 都 是 QAQ ， 其 中 特征 向 量 和 矩阵 Q 是 正 交 和 矩阵 (Q Q— 
D, m A 在 对 角 线 上 包含 特征 值 。 
奇异 值 分 解 (singular value decomposition) 容许 分 解 任意 N Xd 4676 FER (Strang 2006): 
X = VAW! (6-28) 
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其 中 ，N XN 矩阵 VV EIEE XX 的 特征 向 量 ，d Xd EW 的 列 包 含 关 站 的 特征 问 量 ， 
而 Nod MEA 的 对 角 线 上 包含 k 二 min(N，d) 个 奇异 值 (singular values)a; (一 1，…， 
k)， 这 些 奇 异 值 是 XX 和 XX XX 的 非 零 特征 值 的 平 万 根 ，A EAR ICR V 和 W 是 正 
交 和 矩阵 (但 不 必 互 为 转 置 )。 
XX" = (VAW')(VAW')' = VAW'WA'V! = VEV" 
X! X = (VAW')'(VAW') = WA'V'VAW' = WDW' 
其 中 E=AA', D=A'A, 它们 的 大 小 不 同 ,， 但 都 是 方 阵 并 且 都 在 对 角 线 上 包含 ai (i 二 1，…， 
&)， 而 其 他 元 素 为 0。 
与 式 (6-10) 中 一 样 ， 可 以 记 
A = U;a\v; -c-uia»v; e + ua, (6-29) 
尽管 是 非 零 ， 但 如 果 a 很 小 ， 则 可 以 忽略 对 应 的 wu; 和 w;， 并 且 仍 然 可 以 重 构 而 没有 
太 大 误差 。 
在 和 矩阵 分 解 (matrix factorization) 中 ，( 通 常 ) 将 一 个 大 和 矩阵 写成 两 个 矩阵 的 乘积 : 
X = FG (6-30) 
Hop, XE N Xd E, FEN Xk EE, mM GER Xd EE, k 是 因子 空间 的 维度 ,并且 
PAE d FIN 4G. HEA AE, US HE BR, [HET AES LR 9X ies EA 
的 ， 并 且 可 以 在 具有 较 低 维度 的 空间 中 表示 。 

G 用 原始 属性 定义 因子 ， 而 用 这 些 因 子 定 义 数 据 实例 。 例 如 ， 如 果 关 是 NN 个 文档 
的 样本 ， 每 个 使 用 具有 d 个 词 的 词 袋 表示 ， 则 每 个 因子 可 能 是 使 用 词 的 特定 子 集 书写 的 主 
题 或 概念 ， 而 每 个 文档 是 这 些 因子 的 特定 组 合 。 这 称 作 潜在 语义 索引 (latent semantic in- 
gp ep Laham 和 Derr 2004), fE3E f (nonnegative) XB Ver fig P, 5B [Ek di dE fü 

， 并 人 允许 用 复杂 对 象 的 部 分 表示 复杂 对 象 。 

让 我 们 看 看 另 一 个 取 自 零售 的 例子 ， 其 中 X 是 顾客 数据 。 我 们 有 NN 个 顾客 并 销售 & 种 
不 同 的 产品 。X 对 应 于 顾客 t 已 经 购买 的 产品 i 的 数量 。 我 们 知道 顾客 不 会 随机 买 东 西 ， 他 
们 的 购买 依赖 于 许多 因素 。 例 如 ， 他 们 的 家 庭 大 小 和 构成 、 收 入 水 平 、 品 味 等 一 一 对 我 们 而 
言 ， 这 些 通 常 是 隐藏 的 。 在 顾客 数据 的 矩阵 分 解 中 ,假定 有 个 这 样 的 因子 。G 把 因子 与 产 


癌 联系 起 来 。G; 是 d 维 回 量 ， 表 示 因 子 7 与 各 个 i d k i d 
产品 之 间 的 关系 。 也 就 是 说 ，@ 是 正比 于 由 于 因 x F 

Fj 而 购买 产品 i 的 总 量 。 类 似 地 , F 把 顾客 与 

因子 联系 起 来 。F, 是 k 维 向 量 ， 用 隐藏 因子 定义 


顾客 。 也 就 是 说 ，F, 是 由 于 因子 7 而 导致 顾客 上 : : 
的 购买 量 。 因 此 ， 可 以 把 式 (6-30) 改 写 为 


x, = FIG, = MEG, (&-31y * 
图 6-8 矩阵 分 解 。X 是 NXd id D. F 
换 句 话说 ， 为 了 计算 总 量 ， 在 所 有 因子 上 是 NX& 和 矩阵 ， 它 的 第 上 行 用 & 个 隐 
求 和 ， 其 中 ， 对 于 每 个 因子 ， 将 受 该 因子 影响 藏 因子 定义 实例 (t, GE EX d ERE, 
- 4j (dis uis 用 d 个 观测 变量 解释 因子 。 为 了 得 
HERK MRL Be RCNH RR ee iili: 
参见 图 6-8. 虑 所 有 上 个 因子 


6.7 多维 定 标 
假设 有 N 个 点 ， 并 且 给 定 每 对 点 之 间 的 距离 dj (i，j 二 1，…，N)。 我 们 不 知道 这 些 
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点 的 确切 坐标 、 它 们 的 维度 ， 也 不 知道 距离 是 怎样 计算 的 。 多 维 定 标 (MultiDimension 
Scaling，MDS) 是 把 这 些 点 映射 到 低 维 (例如 ， 二 维 ) 空 间 的 方法 ， 使 得 它们 在 低 维 空间 中 
的 欧 氏 距离 尽 可 能 接近 原始 空间 中 给 定 的 距离 di 。 这 样 ， 需 要 一 个 从 某 个 未 知 维度 空间 
到 低 维 空间 (例如 ， 二 维 空间 ) 的 投影 。 

在 典型 的 多 维 定 标 例子 中 ， 我 们 取 城 市 之 间 的 道路 旅行 距离 ， 在 应 用 MDS 后 ， 得 到 
一 张 近似 地 图 。 这 个 地 图 被 扭曲 ， 在 存在 高 山 和 湖泊 等 地 理 障碍 物 的 部 分 ， 道 路 旅行 距离 
大 大 地 偏离 了 直线 飞行 距离 ( 欧 氏 距离 ); 这 个 地 图 被 拉 伸 ， 以 便 适 应 更 长 的 距离 (参见 
图 6-9) 。 该 地 图 以 原点 为 中 心 ， 但 是 解 仍 然 不 是 唯一 的 。 我 们 可 以 得 到 任意 的 旋转 和 镜像 
版 本 。 
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图 6-9 ”MDS 绘制 的 欧洲 图 。 城 市 之 间 逐 对 道路 旅行 距离 作为 输入 给 出 ，MDS 把 它们 放 
到 二 维 空间 中 ， 使 这 些 距离 尽 可 能 地 被 保持 


可 以 使 用 MDS 进行 维度 归 约 。 通 过 计算 d WE x 空间 的 逐 对 欧 氏 距离 并 把 它 作 为 MDS 
的 输入 。 然 后 ，MDS 把 它 投影 到 较 低 维 的 空间 ， 以 保持 这 些 距离 。 

像 通 常 一 样 ， 假 设 有 样本 X 二 {x )=!， 其 中 eR. MMP ar 和 s， 它 们 之 间 的 
平方 欧 氏 距离 为 


d d d d 
g= |x" —x'|? = = (zj— 2) = 2 Ce)" — 2»  zizi T NE EnD 
J=] j=l j=l j=l 


= br TOs — 20, (6-32) 
其 中 ， b, XE LJ 


b, = = Sai (6-33) 
为 了 约束 这 个 解 ， 把 数据 在 原点 中 心 化 并 假定 


Su =0 Vjol,,d 
j=l 
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然后 ， 在 >、y 和 7 与 二 者 上 把 式 (6-32) 加 起 来 ， 并 定义 
A = > Bu = 2i 2, Cat * 


得 到 
Sid? = T+ No, 
Xd} = Nb, +T 
2i Dd INT 


1 1 1 
d?, = N 24d: d? = N Quan d?, = NE 2 d; 
并 使 用 式 (6-32) 时 ， 得 到 
— = (di 4. dt, — dt, — di) (6-34) 


现在 ， 已 经 计算 了 2.， 并 且 知 道 B—XX' Cinz&Coe-33» PREX), Bj np PAL fis A PE Bx 
AC.4 5), Ate oD fe AE X—CD'^n[UL HIE X B —^ cf. Hp CEEE, I B 
的 特征 向 量 ,， 而 D“ 是 对 角 和 矩阵 ， 其 对 角 线 是 特征 值 的 平方 根 。 观 察 B 的 特征 值 ， 像 我 们 
Æ PCA 和 FA 中 所 做 的 那样 ， 我 们 确定 比 4( 和 和 N) 低 的 维度 有 假设 c; 是 特征 向 量 ， 其 对 
应 的 特征 值 为 4;。 注 意 c; 是 NN 维 的 。 于 是 ， 得 到 新 的 维 
z= Ve j= lesk t= 1sN (6-35) 
也 就 是 说 ， 在 规范 化 后 ， 实 例 t 的 新 坐标 由 特征 向 量 c; (j= 二 1，…， 上) 的 第 zt 个 元 素 给 出 。 
我 们 知道 主 成 分 分 析 和 特征 藤 套 做 相同 的 工作 。 这 表明 PCA 与 MDS 做 了 相同 的 工 
作 ， 并 且 如 果 &< 则 PCA 的 代价 更 低 。 在 相关 和 矩阵 而 不 是 在 协 方差 矩阵 上 做 PCA 等 价 
于 用 标准 的 欧 氏 距离 来 做 MDS， 其 中 每 个 变量 都 具有 单位 方差 。 
在 一 般 情况 下 ， 我 们 希望 寻找 一 个 映射 z= 二 g(x10)， 其 中 z€m'. xem’, IFA glo) 
是 依赖 于 参数 9 的 集合 的 从 4d FEB A 维 的 映射 函数 。 前 面 我 们 讨论 的 经 典 MDS 对 应 于 线 
性 变换 
z = g(x|W) = Wix (6-36) 
但 是 在 一 般 情况 下 ， 也 可 以 使 用 非 线 性 的 映射 。 这 称 作 Sammon 映射 (Sammon mapping)。 
映射 中 的 标准 化 误差 称 作 Sammon 应 力 (Sammon stress)， 定 义 为 
E(| 3O — > de= elhet [=e = p? 


[x —2x J 





== Cl g(x’ |0) 一 


(6-37) 


la —=# 
可 以 对 gC + |0) 使 用 任何 回归 方法 ， 估计 0 来 最 小 化 训练 数据 X 上 的 应 力 。 如 果 g(。) 在 
x 上 是 非 线 性 的 ， 则 这 将 对 应 一 个 非 线 性 的 维度 归 约 。 
在 分 类 的 情况 下 ， 可 以 在 距离 中 包含 类 信息 (参见 Webb 1999), tl 
d, = (1—a)d; +H acn 
其 中 ci 是 x 和 x 所 属 类 之 间 的 “距离 ”?。 应 该 主观 地 提供 这 个 类 间距 离 ， 而 a 用 交叉 验证 
优化 。 
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6.8 线性 判别 分 析 


线性 判别 分 析 (Linear Discriminant Analysis，LDA) 是 一 种 用 于 分 类 问题 的 维度 归 约 
的 监督 方法 。 我 们 从 两 类 来 开始 这 个 问题 的 讨论 ， 然 后 推广 到 K>2 个 类 。 

给 定 来 目 两 个 类 CA CHER, 我们 希望 找到 由 向 量 w 定义 的 方 回 ， 使 得 当 数 据 投 
影 到 w 上 时 ， 来 自 两 个 类 的 样本 尽 可 能 分 开 。 正 如 我 们 在 前 面 看 到 的 

g= wx (6-38) 

是 x 到 w 上 的 投影 ， 因 而 也 是 一 个 从 d 维 到 一 维 的 维度 归 约 。 

m, Film, 分 别 是 C, 类 样本 在 投影 前 和 投影 后 的 均值 。 注 意 m ER *， 而 mi ER。 我 们 
有 样本 X= 二 {x ，r'}， 使 得 如 果 ECM =1, MMR x’ EC, r=., 


a 
mM = a O w' m, 
> 
Sw 1-7) 
m= ————_- = w'm; (6-39) 
>) (1—r) 
KA Cl 和 C; 的 样本 投影 后 的 散布 (scatter) 是 
x = 2 (wX — m)’ r 
sj = $) CwTx! —m)ü-r) (6-40) 


投影 后 ， 为 了 使 两 个 类 被 很 好 地 分 开 ， 我 们 希望 均值 尽 可 能 远离 ， 并 且 类 实例 散布 在 尽 
可 能 小 的 区 域 中 。 因 此 ， 我们 希望 |m 一 
mz |K, m sits: 小 (参见 图 6-10), 43 ^ 
RAHA) A (Fishers linear discriminant) 
是 这 样 的 ww， 它 最 大 化 SS 


(m; — m» y 


Jw) = : (6-41) 


N WG 
重 写 分 子 ， 得 到 \\ \\ 

(m —m:) = (w'm; 一 wm) m, 

= w (mi —m:) (m; — m)” w \\ ec 

= wT Saw (6-42) A 
其 中 S, = Gn; — mi) (m, —m:) 是 类 间 散 布 2 
46 M- Cbetween-class scatter matrix), ji ^J X, 
子 是 投影 后 类 实例 在 其 均值 周围 散布 的 和 ， 图 6-10 ”二 维 、 两 类 的 数据 在 w 上 的 投影 
并 且 可 以 改写 为 

$= >) oTr) r 


= 5 jw! G' —m;) (x'—m,)'wr' 
t 


= w' Sw (6-43) 
其 中 


ig UE ja 29 83 


S, zz Sets —m;) Cx" —m,)' (6-44) 


t 


是 C, 的 类 内 散布 矩阵 (within-class scatter matrix), ps E ox, 的 估计 。 类似 地 ,5 = 
wTSsw, 其 中 Ss = > (1 一 r)(x' 一 ms)(x' 一 ms) ， 并 且 得 到 


s$ +s = w'Syww 
其 中 ，Sw = 二 5, 十 $ 是 类 内 散布 的 总 和 。 注 意 总 十 号 除 以 样本 总 数 是 汇聚 数据 的 方差 。 式 (6-41) 
可 以 改写 为 





Tew 9 m. Se (6-45) 
关于 ww 求 古 的 导数 并 令 其 等 于 0， 得 到 


w'(m, —m,) I o Ww Gn, —m;) Ll 
e Ee (iom mo "ES ejes 
25 4E (mn, — m; ) / w" Syw 为 常数 ， 有 
w= c Sw (m, —m;) (6-46) 


其 中 cc 是 常数 。 因 为 对 我 们 来 说 重要 的 是 方向 而 不 是 大 小 ， 所 以 我 们 可 以 取 c— 1 HR 
出 w. 

记 住 ， 当 p(x |CO~Nw. DW, AEF RS, HP w= 二 允 (umu), FHER 
如 果 类 是 正 态 分 布 的 ， 则 费 希 尔 线性 判别 式 是 最 优 的。 在 同样 的 假设 下 ， 还 可 以 计算 立 值 
w, 来 分 开 两 个 类 。 但 是 ， 即 使 类 不 是 正 态 分 布 的 ， 费 希 尔 线 性 判别 式 也 能 使 用 。 我 们 已 经 
把 样本 从 d 维 投影 到 一 维 ， 之 后 可 以 使 用 任何 分 类 方法 。 在 图 6-11 中 ， 我 们 看 到 具有 两 
个 类 的 二 维 人 工 数据 。 正 如 我 们 所 看 到 的 和 所 期 望 的 ， 因 为 使 用 类 信息 ， 所 以 就 易于 区 分 
而 言 ，LDA 方向 优 于 PCA 方向 。 


-—— 
— 





0.5 0.5 
0+ OF O+0 G- 0 Qo I 
-0.5 -0.5 
-] 一 | 
-4 -2 0 2 -4 -3 -2 -] 
PCA 投 影 LDA 投 影 


图 6-11 二 维 人 工 数 据 ， 显 示 了 被 PCA 和 LDA 找到 的 方向 以 及 在 这 些 方向 上 的 投影 。 
LDA 使 用 类 信息 ， 并 且 与 期 望 的 一 样 ， 就 把 类 分 开 而 言 ，LDA 做 得 更 好 


在 K>2 个 类 的 情况 下 ， 我 们 和布 望 找到 这 样 的 矩阵 由， 使 得 


z = W"x (6-47) 
S; = Zr —m;) (x' —m;)! (6-48) 


其 中 ， 如 果 x EC; 则 xr; 二 1， 否 则 为 0。 总 类 内 散布 矩阵 是 


K 
Se = >» 6 (6-49) 
i=] 
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当 存 在 K>2 个 类 时 ， 均 值 的 散布 根据 它们 在 总 均值 周围 的 散布 情况 计算 
ji = xm (6-50) 
而 类 间 散 布 矩 阵 是 
Sa = SINUN: — m) (m; — m)" (6-51) 


i=] 


其 中 N = Dori. BEB Ja AR) EEE W SW, i3: 85 0235 P tot 4B Ped WSW., 


它们 都 是 Xk EE, FRA 2858 BK. EMEA, TER BIR. CORA k ESI, 
我 们 希望 类 均值 之 间 尽 可 能 远离 。 我 们 希望 第 二 个 散布 小 。 也 就 是 说 ， 在 投影 后 ， 我 们 希 
望 来 自 同 一 个 类 的 样本 尽 可 能 接近 它们 的 均值 。 对 于 一 个 散布 (或 协 方 差 ) 矩 阵 ， 散 布 的 度 
量 是 行列 式 。 记 住 该 行列 式 是 特征 值 的 乘积 ， 而 特征 值 给 出 沿 着 它 的 特征 向 量 ( 成 分 ) 的 方 
差 。 因 此 ， 我 们 对 最 大 化 式 (6-44) 的 矩阵 W 感 兴趣 

|W" SW | 
IW? SwW | 
Sw Ss 的 最 大 的 特征 向 量 是 解 。S$s 是 K 个 秩 为 1 的 矩阵 Gm; 一 m) m m) 的 和 ， 并 且 它 们 之 中 


J(W) = (6-52) 


只 有 天 一 1 个 是 独立 的 。 因 此 ，Ss 具 有 最 大 秩 K—1, FFARMMA=-K—1. HH, 我们 定义 一 
个 新 的 、 较 低 的 天 一 1 维 空间 ， 然 后 在 那里 构造 判别 式 ( 参 见 图 6-12). BIA LDA 使 用 类 分 离 


性 作为 评判 它 的 好 坏 标准 ， 但 是 在 这 个 新 空间 中 可 以 使 用 任意 的 分 类 方法 来 估计 判别 式 。 
LDA 后 e 





-2.5 -2 E A -0.5 0 0.5 l 1.5 2 2.5 


6-12 LDA 找到 的 前 两 个 维 空间 上 的 Optdigits。 与 图 6-3 相 比 ， 我 们 看 到 正如 所 期 待 的 一 样 ，LDA e 
PCA 导致 更 好 的 类 分 离 。 即 便 在 这 个 二 维 空间 (有 9 个 维 ) 中 ， 我 们 也 能 看 到 不 同类 的 分 开 的 云 团 
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我 们 看 到 ， 为 了 使 用 LDA，Sw 应 该 是 可 道 的 。 如 果 是 不 可 递 的 ， 则 可 以 先 用 PCA TH 
除 奇异 性 ， 然 后 把 LDA 用 于 其 结果 。 然 而 ， 我们 应 该 确保 PCA 不 会 把 维度 降低 得 太 多 ， 
使 得 LDA 没有 多 少 事 可 做 。 


6.9 典范 相关 分 析 


在 前 面 讨 论 的 所 有 方法 中 ， 我 们 都 假定 有 返回 一 组 观测 的 单个 数据 源 。 有 时 ， 对 于 
同样 的 对 象 或 事件 ， 有 两 种 类 型 的 变量 。 例 如 ， 在 语音 识别 中 ， 除 了 声音 信息 之 外 ， 可 
能 还 有 词 读 出 时 的 层 动 视频 信息 。 在 信息 检索 中 ， 可 能 有 图 像 数 据 和 文本 注释 。 通 常 ， 
这 两 个 变量 集 是 相关 的 ， 并 且 在 将 维度 归 约 到 联合 空间 时 ， 我 们 希望 考虑 这 种 相关 性 。 
这 就 是 典范 相关 分 析 (Canonical Correlation Analysis, CCA) 的 基本 思想 (Rencher 1995), 

假设 有 一 个 具有 两 个 变量 集 的 数据 集 X 二 {x y hao AP xr ER Ay Cr. ER, 

这 两 个 变量 集 都 是 输入 ， 并 且 这 是 一 个 非 监督 问题 。 如 果 存 在 分 类 或 回归 所 需要 的 输出 ， 
则 以 后 像 PCA 中 那样 处 理 它 (6. 3 TD, 

典范 相关 (canonical correlation) H x 维 与 y 维 之 间 的 相关 程度 度量 。 我 们 定义 一 些 记 
Fai Sa 二 Cov(x) 二 EL(x 一 1:) Ji x ERER, E dXd 的 一 一 这 是 我 们 频繁 使 用 
H EERE, ME PCA 中 。 还 有 一 个 了 的 exe 协 相关 和 矩阵， 即 $,, 二 Cov(y)。 还 有 两 个 
ZLAR, B S, 二 Cov(x，y) 二 EL(x 一 jp:)(y 一 by)j]， 它 是 dXe 的 。 而 另 一 个 交 
叉 协 相关 和 矩阵 Sa =Cov(y, x) =EL(y—p,)(x—p,) JH eXd 的 。 

我 们 对 这 样 的 两 个 向 量 w 和 w 感 兴 趣 ， 当 x 投影 到 w、y 投影 到 w 时 ， 得 到 最 大 的 相 
关 性 。 即 我 们 想 最 大 化 


T T 
p= Corr(w'x,v' y) = Cowl w ryu y) 


JCVar(w'x) VVar(v yy) 
E | w'S$yv O 

等 价 地 ， AUTRE w'S,v, SEF w'S, w=1 Al v'S,v=1,. 541] 
在 PCA 中 所 做 的 一 样 ， 把 它们 写成 拉 格 关上 日 形式 ， 然 后 关于 w 和 w 求 导 并 令 它 们 等 于 0， 
我 们 看 到 w 应 该 是 S= SyS ,Sy 的 特征 向 量 。 类 似 地 ，w 应 该 是 sw S seS i S ay AI REME E E 
(Hardoon, Szedmak 和 Shawe-Taylor 2004) 。 

因为 我 们 感 兴趣 的 是 最 大 化 相关 性 ， 所 以 我 们 选择 两 个 具有 最 大 特征 值 的 特征 向 量 ， 
WENA wM m， 而 相关 度 等 于 它们 (共用 的 ) 特 征 值 M。 只 要 ABABA BM, AA 
AB 和 BA 的 特征 值 就 相同 ， 但 是 这 些 特征 回 量 不 同 : wi 是 d AEN. Wu v1 是 e 维 的 。 

正如 在 PCA 中 所 做 的 那样 ， 通 过 观察 下 面 的 对 应 特征 值 的 相对 值 ， 可 以 决定 使 用 多 
AD FF AE [a] EXT Cw, vj 


(6-53) 


(AX 
YA 
其 中 ;二 min(dq，e) 是 最 大 的 可 能 秩 。 我 们 需要 保留 足够 多 的 特征 向 量 对 用 来 保存 数据 中 的 
相关 性 。 
假定 选取 有 作为 维度 ， 则 通过 把 训练 实例 投影 到 这 些 维 上 ， 得 到 典范 变量 (canonical 
variate) ; 


a; = wix', bi = vy’, i= 1,eryk (6-54) 
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上 式 可 以 写成 矩阵 形式 

a =W x, PV (6-55) 
Hip, Weed Xk EE, ECM w; mV e Xk ER, CHAE w (参见 图 6-13). X 
在 ，(a;，b;) 对 的 向 量 构 成 我 们 可 以 使 用 的 新 的 较 低 维 表示 ， 例 如 ， 为 了 分 类 。 这 些 新 特 
征 是 非 元 余 的 。 各 个 a; 的 值 是 不 相关 的 ， 并 且 每 个 a; 都 与 所 有 的 5;(j 关 让 不 相关 。 


OOO OOO 


QO OG 


图 6-13 典范 相关 分 析 使 用 两 组 变量 x 和 y， 并 且 投 影 每 一 个 使 得 投影 后 的 相关 性 最 大 化 


为 了 使 CCA 有 意义 ， 两 组 变量 必须 是 依赖 的 。 例 如 ， 在 信息 检索 (Hardoon，Szed- 
mak 和 Shawe-Taylor 2004) 中 就 存在 依赖 性 :“ 天 空 ” 与 图 像 中 的 许多 蓝 色相 关联 ， 所 以 使 
用 CCA 是 有 道理 的 。 但 这 并 非 总 是 如 此 。 例 如 ， 在 用 户 认 证 中 ， 我们 可 能 有 签名 和 虹膜 
图 像 ， 但 没有 理由 认为 它们 之 间 存 在 依赖 性 。 在 这 种 情况 下 ， 最 好 是 对 签名 和 虹膜 图 像 分 
别 进行 维度 归 约 ， 从 而 发 现 同 一 组 特征 之 间 的 依赖 性 。 如 果 我 们 还 可 以 假定 独立 的 特征 集 
之 间 存 在 相关 性 ， 则 使 用 CCA 才 有 意义 。Rencher(1995) 讨 论 了 是 否 有 5S,, —0 的 检验 ， 
B] x Wy 是否 独立 的 检验 。 有 趣 的 是 ， 如 果 x 是 观测 变量 ， 并 且 类 标号 用 1 一 下 编码 ， 则 
CCA 找 出 与 费 希 尔 的 LDA 相同 的 解 (6. 8 节 )。 

在 因子 分 析 中 ， 我 们 给 出 了 维度 归 约 生成 的 解释 。 我 们 假设 存在 隐藏 变量 zx， 它们 组 
合 时 导致 观测 变量 x。 这 里 ， 我 们 同样 可 以 考虑 产生 x 和 y 的 隐藏 变量 。 实 际 上 ， 我 们 可 
以 认为 a 和 4b 共同 构成 潜在 空间 中 的 表示 zz。 

把 CCA 推广 到 多 组 变量 是 可 能 的 。Bach 和 Jordan(2005) 给 出 CCA 的 概率 解释 ， 那 
里 超过 两 组 变量 是 可 能 的 。 


6.10 等 距 特 征 映 射 


当 数 据 落 在 一 个 线性 子 空间 中 时 ，6. 3 节 讨 论 的 主 成 分 分 析 (PCA) 效 果 很 好 。 然 而 ， 
在 许多 应 用 中 ， 这 一 前 提 并 不 成 立 。 以 人 脸 识别 为 例 ， 在 人 脸 识 别 中 人 脸 用 100 X 100 的 
二 维 图 像 表 示 。 在 这 种 情况 下 ， 每 张 人 脸 是 10 000 维 空间 中 的 一 个 点 。 现 在 ， 假 设 随 着 一 
个 人 从 右 向 左 慢 慢 转动 头 部 ， 我 们 取 一 系列 照片 。 我 们 得 到 的 这 个 人 脸 图 像 序列 沿 着 10 
000 维 空间 中 的 一 条 轨迹 ， 而 不 是 线性 的 。 现 在 ， 考 虑 许多 人 的 人 脸 。 随 着 他 们 转动 头 
部 ， 所 有 人 的 人 脸 轨 迹 定 义 了 10 000 维 空间 中 的 一 个 流 形 ， 并 且 这 就 是 我 们 想 要 建 模 的 。 
两 张 人 脸 的 相似 性 不 能 简单 地 表示 为 像素 差 的 和 ， 因 而 欧 氏 距离 不 是 一 个 好 的 度量 。 很 可 
能 出 现 这 种 情况 : 两 个 具有 相同 姿势 的 不 同 的 人 脸 图 像 的 欧 氏 距离 比 同一 个 人 的 两 种 不 同 
姿势 的 图 像 的 欧 氏 距离 更 小 。 这 不 是 我 们 想 要 的 。 我 们 应 该 计算 的 是 沿 流 形 的 距离 ， 这 称 
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作 测 地 距离 (geodesic distance), 4 JE 4 4E HR Ht (Isometric feature mapping, Isomap) 
(Tenenhaum,de Silva 和 Langford 2000) 估 计 这 种 距离 并 使 用 多 维 定 标 (MDS)(6.7 4), 
用 它 进行 维度 归 约 。 | 

Isomap 使 用 所 有 数据 点 对 之 间 的 测 地 距离 。 对 于 输入 空间 中 靠近 的 邻近 点 ， 可 以 
使 用 欧 氏 距离 。 对 于 姿势 中 的 小 改变 ， 流 形 是 局 部 线性 的 。 对 于 远离 的 点 ， 测 地 距离 
用 沿 流 形 的 点 之 间 的 距离 和 来 近似 。 可 以 这 样 做 : 定义 一 个 图 ， 其 节点 对 应 于 NN 个 
数据 点 ， 其 边 连 接 邻 近 的 点 (距离 小 于 某 个 ee 的 点 ， 或 n 个 最 近邻 之 一 )， 边 的 权重 对 
应 于 欧 氏 距离 。 任 意 两 个 点 之 间 的 测 地 距离 用 对 测 地 距离 
应 的 两 点 之 间 最 短路 径 长 度 计算 。 对 于 两 个 不 邻 
近 的 点 ， 需要 沿 通 路 跳 过 许多 中 间 点 ， 因 而 该 距 
离 是 沿 流 形 的 距离 ， 用 局 部 欧 氏 距离 的 和 来 近似 


(参见 图 6-14) 

两 个 节点 > 和 s EER, wE |x || <e wa 
(同时 确保 图 是 连通 的 ) 或 者 x 是 x' 的 个 最 近邻 
之 一 (同时 确保 距离 矩阵 是 对 称 的 )， 并 且 设 置 其 


"i è rs » 图 6-14 与 欧 氏 距离 不 同 , 测 地 距离 沿 流 形 
边 长 为 上 |x 一 x' 上 。 对 于 两 个 节点 + 和 s，d EÈ EAR. TE eg 


们 之 间 最 短路 径 的 长 度 。 然 后 ,在 d. 上 应 用 GMT. X ee 
MDS， 通 过 观察 它们 所 贡献 的 方差 比例 ， 把 维度 例 将 被 映射 到 新 空间 中 远离 的 位 置 ， 
降低 到 &。 这 具有 如 下 效果 : 把 测 地 空间 远离 的 7 尽管 它们 在 原始 空间 中 很 靠近 


和 也 放 在 新 的 & 维 空间 远离 的 位 置 上 ， 即 使 在 原始 d 维 空间 中 它们 用 欧 氏 距离 表示 时 是 
靠近 的 也 是 如 此 。 

很 显然 ， 随 着 点 数 的 增加 ， 图 形 距离 提供 了 更 好 的 近似 ， 尽 管 以 更 多 的 运行 时 间 为 代 
价 。 如 果 时 间 是 至 关 重 要 的 ， 则 可 以 二 次 抽样 并 使 用 “地 标点 ” 子 集 使 得 算法 更 快 。 参 数 es 
需要 细心 调整 。 如 果 它 太 小 ， 则 可 能 存在 多 个 连通 分 文 ; 而 如 果 它 太 大 ， 则 可 能 添加 破坏 
AE AE fe ALB) BE E" X1 (Balasubramanian 等 2002) 。 

与 使 用 MDS 一 样 ， 使 用 Isomap 的 一 个 问题 是 : 因为 使 用 特征 能 入 ， 所 以 它 把 N 个 
点 放 到 一 个 低 维 空间 中 ,但 是 它 并 不 学 习 一 个 可 以 映射 新 检验 点 的 一 般 映射 函数 ; 新 的 点 
应 该 添加 到 数据 集中 ， 并 且 需 要 使 用 N 十 1 个 实例 再 次 运行 整个 算法 。 


6.11 ARRERA 


ERA HRA (Locally Linear Embedding，LLE) 从 局 部 线性 拟 合 发 现 全 局 非 线性 结构 
(Roweis 和 Saul 2000) 。 其 基本 思想 是 ， 流 形 的 每 个 局 部 小 段 都 可 以 线性 地 近似 ， 并 且 给 
定 足 够 多 的 数据 ， 每 个 点 都 可 以 表示 成 其 近邻 (或 者 用 给 定 的 近邻 数 2， 或 者 用 距离 半 值 s 
定义 ) 的 线性 加 权 和 。 给 定 原始 空间 中 的 兰 和 它 的 近邻 xi ， 可 以 使 用 最 小 二 乘 找 到 重 构 权 
重 W,,， 它 最 小 化 误差 函数 

E*(W|x) = X |e- wax (6-56) 


约束 条 件 是 ， 对 于 任意 ~>, W,=08 DW, =1. 


LLE 的 基本 思想 是 ， 重 构 权 重 W, 反 映 数据 的 固有 几何 性 质 ， 我 们 期 望 这 种 性 质 对 于 
流 形 ( 即 实例 映射 到 的 新 空间 ) 的 局 部 小 段 也 有 效 ( 参 见 图 6-15)。 因 此 ，LLE 的 第 二 步 是 
保持 权重 W, 固定 ， 并 邻 新 坐标 xz" 关于 由 权重 给 定 内 部 点 约束 取 所 需 的 值 : 
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(6-57) 


f*(2|W)- » [z = 2,W, x 





x 空间 x 空间 
图 6-15 局 部 线性 代入 首先 在 原始 空间 学 习 约 束 ， 然 后 关于 这 些 约 束 把 点 放置 在 新 空间 。 的 
束 使 用 直接 近邻 (用 实 线 显 示 ) 学 习 ， 但 是 也 传播 到 二 级 近邻 (用 虚线 显示 ) 
在 原始 d 维 空间 中 位 于 附近 的 点 在 新 的 & 维 空间 中 应 该 保持 邻近 ， 并 且 类 似 地 在 新 的 
k 维 空间 中 协同 定位 。 式 (6-57) 可 以 改写 为 


F(Z|W) = MM, G2 xz (6-58) 
其 中 
M, = à, —W,, —W, + > WW, (6-59) 


M Ji s ii HY C— 1 2 48 A EB SRD A EB: 2 委 N)、 对 称 的 和 半 正 定 的 。 与 其 
他 维度 归 约 方法 一 样 ， 要 求 数 据 在 原点 中 心 化 了 ELzj=0， 并 且 新 坐标 是 不 相关 的 且 具 有 单 
位 长 度 : Cov(z) 王 [。 在 这 两 个 约束 下 ， 式 (6-58) 的 解 由 具有 最 小 特征 值 的 & 十 1 个 特征 向 
量 给 出 。 忽 略 最 小 的 特征 值 ， 其 余 上 个 特征 向 量 即 为 新 坐标 。 

因为 nn 个 近邻 生成 一 个 n 一 1 维 空间 (在 二 维 空 间 中 ， 需 要 到 3 个 点 的 距离 来 唯一 定 
位 )， 所 以 LLE 可 以 把 维度 归 约 到 & 委 2 一 1。 据 观察 (Saul 和 Roweis 2003), k 5 n 之 间 的 
革 个 范围 足以 得 到 一 个 好 的 能 人。 注意 ， 如 果 7 或 se) 很 小 ， 则 每 个 实例 与 它 近 邻 连 接 构 
造 的 图 可 能 不 再 连通 ， 并 且 可 能 需要 在 各 连通 分 文 上 分 别 运 行 LLE， 找 出 输入 空间 不 同 部 
分 的 流 形 。 男 一 方面 ， 如 果 2 或 se) 取 值 太 大 ， 那 么 某 些 近邻 可 能 太 远 ， 局 部 线性 假设 不 
成 立 ， 可 能 损害 众人 入 。 有 可 能 基于 某 种 先 验 知 识 ， 在 输入 空间 的 不 同 部 分 使 用 不 同 的 2( 或 
e)， 但 是 如 何 做 仍然 是 一 个 尚 需 人 研究 的 问题 (Saul 和 Roweis 2003). 

与 Isomap 一 样 ，LLE 解 是 NN 个 点 的 新 坐标 系 ， 但 不 学 习 上 映射， 因而 不 能 为 新 的 x dX 
到 zx" 。 对 此 有 两 种 解决 方案 : 

1) 使 用 相同 的 思想 ， 可 以 在 原始 a 维 空间 中 找 出 x 的 nn 个 近邻 ， 并 且 首 先 学 习 最 小 化 


z"(w|X)- | x’ an > wx | (6-60) 
的 重 构 权 重 mw ， 然 后 使 用 它们 在 新 的 于 维 空间 中 重 构 x’ 
z = wat (6-61) 


注意 ， 这 种 方法 也 可 以 用 于 从 Isomap(a MDS) 解 插值 。 然 而 ， 其 缺点 是 需要 存放 束 
ABBR Ax! zN. 
2) fx — (x. za ERIRE, FT DURE REALISE g(x:10) 。 例 如 ， 一 个 多 层 
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IERI ar CS 11 380. EAM x 3r fL z' Wize, HSM 9 通过 学 习 得 到 用 于 最 小 化 回归 
TRE : 


E(@|x) = 2s |e ~ g(x lo» ||? (6-62) 


一 旦 训练 完成 ， 就 可 以 计算 x 一 g(x lo. 应 该 小 心 选择 模型 g(。)， 使 之 能 够 学 习 
映射 。 可 能 不 再 有 唯一 最 优 的 ， 因 而 存在 通常 与 最 小 化 有 关 的 所 有 问题 ， 即 初始 化 、 局 部 
RE. WS. 

在 Isomap 和 LLE 中 ， 存 在 在 近邻 上 传播 的 局 部 信息 ， 以 便 得 到 全 局 解 。 在 Isomap 
中 ， 测 地 距离 是 局 部 距离 的 和 ; 在 LLE 中 ， 最 终 放 置 x’ 的 最 优 解 考虑 了 所 有 局 部 W, 值 。 
假设 a Alb EER, b Alc BIB. Ra Alc 可 能 不 是 近邻 ,但 是 a Alc 之 间 的 依赖 性 或 
者 通过 图 ，d, 一 dw 十 d， 或 者 通过 权重 Ws 和 Wi 而 存在 。 在 这 两 个 算法 中 ， 全 局 非 线 性 
组 织 通 过 整合 部 分 重 全 的 局 部 线性 约束 而 发 现 。 


6.12 拉 普 拉 斯 特征 映射 


考虑 数据 实例 x' ER r=, e, MAETR z' ER*。 假 定 有 实例 点 对 之 间 的 
相似 度 值 B, ， 这 些 值 可 能 是 在 某 高 维 空间 中 计算 的 ， 使 得 如 果 r 和 s 相同 则 它 取 最 大 值 ， 
并 且 随 着 它们 变 得 不 相似 而 递减 。 假 设 可 能 的 最 小 值 是 0， 并且 它 是 对 称 的 : B, = B, 
(Belkin 和 Nyogi 2003)。 目 标 是 


min), |Iz'—zl?B, (6-63) 


该 相似 的 实例 ( 即 其 Bn itr 和 >) 应 该 放置 在 新 空间 中 的 邻近 地 方 ， 因 此 x” fil 

了 反之 ， 它 们 越 不 相似 ， 我 们 就 越 不 关心 它们 在 新 空间 中 的 相对 位 置 。B. 在 原 

BENTON. 例如 ， 如 果 使 用 点 积 ， 则 类 似 于 多 维 定 标 所 使 用 的 方法 将 会 有 效 : 
B= EC 

但 是 ， 类 似 于 Isomap A LLE， 在 拉 普 拉 斯 特征 映射 中 ,我们 只 关注 局 部 相似 性 (Bel- 
kin 和 Nyogi 2003)。 我 们 或 者 通过 x" 和 x 之 间 的 某 个 最 大 e 距离 ， 或 者 通过 最 近邻 来 定 
义 邻 域 ， 而 在 邻 域 之 外 ， 我 们 设置 B, 为 0。 在 该 邻 域 内 ， 对 于 用 户 指 定 的 某 个 o 值 ， 使 用 
高 斯 核 把 欧 氏 距离 转换 成 相似 度 值 : 

B, = ep ET 

B 可 以 看 作 定 义 了 一 个 加 权 图 。 

对 于 & 王 1( 我 们 把 维度 约 减 为 1) ， 可 以 把 式 (6-63) 改 写 为 


MO 

(ŽB. zi 2D /B» zz, + 2,B. (z,)*) 
(S\d,22 —25)B,2,2,+ M di) 

= Tis = T | 


—z'Dz — z" Bz (6-64) 
其 中 , d, = 0B, . Died, IAEE, Tz 是 NN 维 列 向 量 , 该 列 向 量 是 + 维 ，z, 是 x' 的 
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新 坐标 。 我 们 定义 图 拉 普 拉 斯 (graph Laplacian) 

L= D—B (6-65) 
目标 是 最 小 化 xz 7Lz 。 为 了 得 到 唯一 解 ， 要 求 上 z= 二 1。 与 特征 嵌入 一 样 ， 直 接 得 到 新 空间 
中 的 坐标 而 无 须 任何 额 外 的 投影 。 可 以 证 明 z KEL 的 特征 向 量 ， 并 且 因 为 我 们 想 要 最 
小 化 ， 所 以 我 们 选择 具有 最 小 特征 值 的 特征 向 量 。 然 而 ， 注 意 ， 至 少 存在 一 个 特征 值 为 0 
的 特征 向 量 ， 应 该 忽略 它 。 该 特征 向 量 的 所 有 元 素 都 相等 : c= 二 (1/VN)1'。 对 应 的 特征 值 
为 0， 因 为 

Lc = De — Be = 0 

D 的 行 和 在 其 对 角 线 上 ， 而 B 的 行 与 1 的 点 积 也 取 加 权 和 。 在 这 种 情况 下 ,为 了 使 
式 (6-64) 为 0， 由 于 Bi 为 非 负 的 ， 所 以 对 于 所 有 的 (i，j) 对 ，z; 和 zj 应 该 相等 。 为 了 范 数 
为 1， 它们 都 应 该 为 1 /VN。 因 此 ,我们 应 该 跳 过 特征 值 为 0 特征 向 量 ， 并 且 如 果 我 们 想 
把 维度 归 约 到 上 二 1， 则 需要 取 下 一 个 上 。 

拉 普 拉 斯 特征 映射 是 一 种 特征 能 和 方法。 也 就 是 说 ， 直 接 在 新 空间 中 寻找 坐标 ， 而 没 
有 稍 后 可 以 用 于 新 实例 的 映射 模型 。 

我 们 可 以 将 式 (6-63) 与 式 (6-37)(MDS 中 的 Sammon 应 力 ) 进 行 比较 。 这 里 ， 原 始 空间 
中 的 相似 性 在 B, 中 隐 式 表示 ， 而 在 MDS 中 ， 它 被 显 式 地 记 作 |‖ xz 一 关 |。 另 一 点 不 同 是 ， 
在 MDS 中 ， 检 查 所 有 对 之 间 的 相似 度 ， 而 这 里 限于 局 部 (之 后 被 传播 ， 因 为 与 Isomap 和 
LLE 中 一 样 ， 这 些 局 部 近邻 部 分 地 重 和 至) 。 

对 于 四 维 高 尾 花 数据 ， 投 影 到 MDS 和 拉 普 拉 斯 特征 映射 给 出 的 两 个 维 上 的 结果 在 图 6-16 
中 。 这 里 ，MDS 等 价 于 PCA， 然 而 我 们 看 到 ， 拉 普 拉 斯 特征 映射 将 类 似 的 实例 投影 到 新 
空间 的 临近 位 置 上 。 这 就 是 该 方法 是 聚 类 前 预 处 理 数 据 的 好 方法 的 原因 。7. 7 节 讨 论 的 谱 
聚 类 (spectral clustering) 就 使 用 这 种 思想 。 


拉 普 拉 斯 特征 映射 
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图 6-16 使 用 多 维 定 标 和 拉 善 拉 斯 特征 映射 归 约 到 二 维 的 高 尾 花 数据 。 后 者 导致 类 似 实例 的 更 稠密 放置 


6. 13 注释 


回归 中 的 子 集 选择 在 Miller 1990 中 讨论 。 我 们 讨论 的 向 前 和 向 后 搜索 过 程 都 是 局 部 
搜索 过 程 。Fukunaga 和 Narendra(1977) 提 出 了 一 种 分 支 和 界限 过 程 。 以 更 大 的 开销 ， 
使 用 模拟 退火 或 者 遗传 算法 等 随机 过 程 ， 在 搜索 空间 中 进行 更 广泛 的 搜索 。 

还 有 一 些 用 于 特征 选择 的 过 滤 (filtering) 算 法 ， 其 中 启发 式 度 量 在 预 处 理 阶 段 用 来 计 


2& JE ya #& 9] 


算 特征 的 “相关 性 ”， 而 不 是 实际 使 用 学 习 方 法 。 例 如 ， 对 于 分 类 ， 取 代 每 步 训练 和 检验 
一 个 分 类 需 ， 可 以 使 用 像 在 线性 判别 分 析 所 用 的 可 分 性 度量 来 度量 在 新 空间 中 把 类 彼此 
分 开 的 质量 (McLachlan 1992) 。 随 着 计算 费用 的 降低 ， 最 好 在 循环 中 包含 学 习 程 序 ， 
因为 不 能 保证 过 滤 方 法 使 用 的 启发 式 度量 与 使 用 特征 的 学 习 方法 的 偏 傈 匹配 。 启 发 式 
度量 不 能 取代 实际 的 验证 准确 率 。Guyon 和 Elisseef(2003) 给 出 了 特征 选择 方法 的 

投影 方法 需要 数值 输入 ， 离 散 变 量 应 该 用 0/1 哑 变 量 表示 ， 而 子 集 选 择 可 以 直接 使 用 
离散 输入 。 寻 找 特 征 回 量 和 特征 值 是 非常 直接 的 ， 并 且 已 经 是 任何 线性 代数 软件 包 的 一 部 
分 。 因 子 分 析 是 由 英国 心理 学 家 Charles Spearman 提出 的 ， 用 于 发 现 智力 的 单个 因素 ， 解 
释 不 同 智力 测试 得 分 之 间 的 联系 。 这 种 单个 因子 ( 称 为 g) 的 存在 性 很 有 争议 。 更 多 关于 多 
维 定 标的 信息 可 以 在 Cox fI Cox 1994 中 找到 。 

我 们 讨论 的 投影 方法 是 批 处 理 过 程 ， 因 为 它们 要 求 在 发 现 投影 方向 之 前 给 定 整个 样 
AS. Mao 和 Jain(1995) 讨 论 了 做 PCA 和 LDA 的 在 线 过 程 ， 其 中 样 例 被 逐个 给 出 ， 并 且 更 
新 随 新 实例 的 到 达 而 进行 。 非 线性 投影 的 男 一 种 可 能 的 方法 是 Sammon 映射 的 估计 被 取 作 
非 线性 函数 ， 例 如 ， 多 层 感 知 器 (11. 11 4) (Mao 和 Jain 1995)。 进 行 非 线 性 因子 分 析 也 是 
可 能 的 ， 但 是 相当 困难 。 当 模型 是 非 线 性 的 时 ， 构 建 一 个 正确 的 非 线 性 模型 是 困难 的 。 我 
们 还 需要 用 复杂 的 优化 和 通 近 方 法 来 求解 模型 参数 。 

拉 普 拉 斯 特征 映射 使 用 特征 能 入 的 思想 ， 使 得 能 够 保持 逐 对 相似 性 。 相 同 的 思想 也 用 
于 核 机 项 ， 在 该 方法 中 逐 对 相似 性 由 核 函 数 给 定 。 在 第 13 章 中 ， 我 们 将 讨论 * 核 ?PCA、 
LDA 和 CCA。 正 如 把 高 阶 项 看 作 附 加 的 输入 ,通过 线性 回归 实现 非 线 性 回归 一 样 (5.8 
他)， 可 以 通过 使 用 非 线性 基 郴 数 映 射 到 新 空间 来 进行 非 线性 维度 归 约 。 这 是 核 方 法 中 的 
思想 ， 它 比 用 点 积 或 欧 氏 距离 计算 相似 度 更 好 。 

窍 阵 分 解 方法 在 各 种 大 数据 应 用 中 非常 流行 ， 因 为 它们 允许 使 用 较 小 的 矩阵 解释 大 数 
据 和 矩阵 。 一 个 应 用 范例 是 推荐 系统 (recommendation system)， 在 该 系统 中 可 能 有 数 百 万 
电影 和 数 自 万 客户 ， 而 条 目 是 客户 评级 。 注 意 ， 大 部 分 条 目 是 缺失 的 ， 目 的 是 填补 这 些 缺 
失 的 值 ， 然 后 基于 这 些 预 测 值 做 推荐 (Koren，Bell 和 Volinsky 2009), 

特征 提取 和 决策 之 间 有 一 个 权衡 。 如 果 特 征 提 取 算 法 很 好 ， 则 分 类 算法 (或 回归 算法 ) 
的 任务 变 得 微不足道 。 例 如 ， 当 类 代码 作为 新 的 特征 从 现 有 特征 中 提取 出 来 时 就 是 如 此 。 
为 一 方面 ， 如 果 分 类 算法 足够 好 ， 则 没有 必要 进行 特征 提取 。 它 自己 做 自动 特征 选择 或 者 
内 部 组 合 。 我 们 处 于 这 两 个 理想 世界 之 间 。 

存在 一 些 内 部 做 某 些 特征 选择 的 算法 ， 尽 管 是 以 有 限 的 方式 。 决 策 树 归 纳 ( 第 9 章 ) 在 
生成 决策 树 时 进行 特征 选择 ， 而 多 层 感 知 器 (第 11 章 ) 在 隐藏 节点 做 非 线 性 的 特征 提取 。 
我 们 期 望 看 到 沿 着 这 一 方向 ， 在 把 特征 提取 艇 入 实际 的 分 类 或 回归 步骤 中 取得 更 多 进展 。 


6.14 习题 


1. 假定 类 是 正 态 分 布 的 ， 在 子 集 选择 中 ， 当 一 个 变量 被 添加 或 去 掉 时 ， 如 何 快速 计算 新 
的 判别 式 ? 例 如， 如 何 从 Sod +E Si? 

2. 使 用 取 自 UCI 知识 库 中 的 Optdigits 实现 PCA。 对 于 不 同 数量 的 特征 向 量 ， 重 构 数 字 图 
像 并 计算 重 构 误 差 ( 式 (6-12) ) 。 

3. 给 定 道路 旅行 距离 作为 输入 ， 使 用 MDS 绘制 你 所 在 省 或 国家 的 地 图 。 
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在 Sammon 映射 中 ， 如 果 映 射 是 线性 的 ， 即 g(x | WO —W' x， 如 何 计 算 最 小 化 Sammon 
应 力 的 W? 

在 图 6-11 中 ， 我 们 看 到 一 个 二 维 人 工 数据 ， 那 里 LDA 比 PCA 做 得 好 。 绘 制 一 个 类 似 
的 数据 集 ， 其 中 PCA AI LDA 找到 相同 的 好 方向 。 绘 制 另 一 个 数据 集 ，PCA 和 LDA 都 
找 不 到 一 好 方向 。 


. 重 做 习题 3。 这 次 使 用 Isomap， 其 中 仅 当 两 个 城市 之 间 有 不 经 过 其 他 城市 的 直通 道路 


时 ， 这 两 个 城市 才 锌 连接 。 


. 在 Isomap 中 ， 我 们 也 可 以 使 用 邻近 点 之 间 的 马 氏 距离 ， 而 不 使 用 欧 氏 距离 。 如 果 使 用 


马 氏 距离 ， 这 种 方法 有 何 优 缺 后 ? 


. 只 要 有 对 象 两 两 之 间 的 距离 ， 多 维 定 标 就 可 以 进行 。 只 要 有 某 种 相似 性 度量 ， 束 完全 


不 必 把 对 象 用 向 量 表示 。 你 能 给 出 一 个 例子 吗 ? 

解 : 假定 有 一 个 文档 数据 库 。 如 果 d RRA r 和 ;的 共同 术语 的 个 数 ， 则 我 们 
可 以 使 用 MDS 把 这 些 文档 映射 到 一 个 低 维 空间 ， 例如， 可 视 化 它们 和 检查 结构 。 注 
意 ， 这 里 可 以 统计 共同 术语 的 个 数 而 无 需 显 式 地 使 用 词 袋 表示 来 把 这 些 文档 表示 成 
HE. 


. 如 何 把 类 信息 结合 到 Isomap 和 LLE 中 ， 使 得 相同 类 的 距离 映射 到 新 空间 的 邻近 位 置 ? 


f: 可 以 在 计算 属于 不 同类 的 实例 的 距离 时 包括 一 个 附加 的 罚 项 ，MDS 将 把 同一 
类 的 实例 映射 到 附近 的 点 。 


10. 在 因子 分 析 中 ， 如 果 已 经 知道 某 些 因子 ， 如 何 找到 其 余 的 因子 ? 


解 : 如 果 已 经 知道 一 些 因 子 ， 则 可 以 通过 回归 求 出 它们 的 载荷 ， 然 后 从 数据 中 删 
除 它 们 的 影响 。 于 是 ， 我 们 将 得 到 不 由 那些 因子 解释 的 残 差 ， 并 寻找 可 以 解释 这 种 残 
差 的 附加 因子 。 
. 讨论 一 个 例子 ， 它 有 隐藏 因子 (不 必 是 线性 的 ) ， 并 且 因 了 于 分 析 有 望 效 末 很 好 。 
解 : 一 个 例子 是 一 所 大 学 的 学 生成 绩 数据 。 对 于 一 套 课 程 ， 一 个 学 生 取 得 的 等 级 
取决 于 一 些 隐 藏 的 因素 ， 例如， 学 生 的 学 科 能 力 、 他 可 以 用 于 学 习 的 时 间 、 他 的 住 窒 
舒适 度 等 。 
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在 参数 方法 中 ， 我 们 假设 样本 来 自 一 个 已 知 的 分 布 。 当 这 种 假设 站 不 住 脚 时 ， 我 们 放 
宽 该 假设 ， 并 使 用 半 参 数 方法 ， 允 许 用 混合 分 布 估计 输入 样本 。 聚 类 方法 允许 从 数据 中 学 
习 混 合 分 布 。 除 了 概率 建 模 之 外 ， 我 们 还 讨论 向 量 量化 、 谱 聚 类 和 层次 聚 类 。 


7.1 引言 


在 第 4 章 和 第 5 章 中 ， 我 们 讨论 了 密度 估计 的 参数 方法 ， 那 里 我 们 假设 样本 X 取 自 某 
个 参数 族 ， 例 如 高 斯 族 。 在 参数 分 类 中 ， 这 对 应 于 为 类 密度 p(x|c;) 假 定 某 种 密度 。 参 数 
方法 的 优点 是 ， 给 定 一 个 模型 ， 问 题 归 结 为 少量 参数 的 估计 。 对 于 密度 估计 ， 人 参数 是 密度 
的 充分 统计 量 。 例 如 ， 对 于 高 斯 密度 ， 参 数 为 均值 和 协 方差 。 

尽管 参数 方法 使 用 非常 频繁 ， 但 是 对 于 假定 并 不 成 立 的 许多 应 用 来 说 ， 假 定 一 个 严格 
的 参数 模型 可 能 是 偏 倚 的 根源 。 因 此 ， 我 们 需要 更 灵活 的 模型 。 尤 其 是 ， 假 定 高 斯 密度 对 
应 于 假定 样本 (例如 ， 一 个 类 的 实例 ) 形 成 d- 维 空间 中 的 单个 分 组 ， 并 且 正 如 我 们 在 第 5 章 
所 看 到 的 ， 该 分 组 的 中 心 和 形状 分 别 由 均值 和 协 方差 给 定 。 

然而 ， 在 许多 应 用 中 ， 样 本 不 是 一 个 分 组 ， 而 可 能 有 多 个 分 组 。 以 手写 字符 识别 为 
例 。 有 两 种 风格 书写 数字 7: 美洲 人 的 写法 是 “7”， 而 欧洲 人 的 写法 是 中 间 有 一 个 水 平 杠 
(与 欧洲 人 手写 的 、 上 面 有 一 小 划 的 ‘1’ 以 示 区 别 )。 在 这 种 情况 下 ， 当 样本 包含 来 自 两 个 
洲 的 实例 时 ， 数 字 7 的 类 应 当 表 示 成 两 个 不 相交 的 分 组 。 如 果 每 个 分 组 用 一 个 高 斯 分 布 表 
示 ， 则 该 类 可 以 用 两 个 高 斯 分 布 的 混合 分 布 表 示 ， 每 个 用 于 一 种 书写 风格 。 

类 似 的 例子 是 语音 识别 ， 其 中 由 于 不 同 的 发 音 、 口 音 、 性 别 、 年 龄 等 ， 相 同 的 词 可 能 
以 不 同 的 方法 读 出 。 这 样 ， 当 没有 单个 、 通 用 的 原型 时 ， 为 了 统计 上 的 正确 性 ， 应 当 在 密 
度 中 表示 所 有 这 些 不 同 的 方法 。 

3 ALTER IURI 71 1; 29 2E 5-4 98 E 45 dT Csemiparametric density estimation)， 因 为 我 们 仍 
然 对 样本 中 的 每 个 分 组 假定 一 个 参数 模型 。 在 第 8 章 ， 我 们 将 讨论 非 参数 方法 。 当 数据 没 
有 结构 ， 甚 至 连 混 合 模型 都 不 能 使 用 时 ， 可 以 使 用 非 参数 方法 。 在 本 章 ， 我 们 主要 讨论 密 
度 估计 ， 而 将 监督 学 习 推 迟到 第 12 章 中 。 


7.2 混合 密度 
混合 密度 (mixture density) 记 作 
k 
p(x) = >) p(x|G,)PG,) (7-1) 
j=l 


其 中 6, 是 混合 分 支 (mixture component), th MH X 28 (group) 3X, # (cluster), 
bx | G0 Æ € BH (component density), Tij p(G,) i> 6 45] (mixture proportion), 4>X% 
数 & 是 超 参 数 ， 应 当 预 先 指 定 。 给 定 样本 和 &， 学 习 对 应 于 估计 支 密度 和 比例 。 当 假定 支 
密度 遵守 参数 模型 时 ， 只 需要 估计 它们 的 参数 。 如 果 支 密度 是 多 元 高 斯 的 ， 则 有 
P(X|GI~N (pi, EO. M OSP); pis Ei: dE CO MB sr In] OD iY EAR X = Ux), 
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估计 的 参数 。 
参数 分 类 是 名 副 其 实 的 混合 模型 ， 其 中 分 组 9, 对 应 于 类 cC;， 支 密度 p(x|6;) 对 应 于 类 
密度 p(x|C;)， 而 p(6G,;) 对 应 于 类 先 验 POCO: 


po = >) p(x COP) 


在 这 种 监督 情况 下 ， 我 们 知道 有 多 少 个 分 组 ， 而 学 习 参 数 是 平凡 的 ， 因 为 我 们 有 类 标 
号 ， 即 知道 哪个 实例 属于 哪个 类 (分 支 )。 从 第 5 章 我 们 知道 ， 给 定 样本 X 王 人 cr， 产 )1， 
其 中 如 果 x EC; 则 7 二 1， 否 则 x 为 0， 可 以 使 用 最 大 似 然 计算 这 些 参数 。 当 每 个 类 都 是 高 
斯 分 布 时 ,我们 有 混合 高 斯 分 布 ， 并且 参数 估计 为 








ar 
P(ci) = N 
» rix! 
m; = yy (7-05 
Sirio! —m) Gt —m)* 
、 ————— 


Qu" 

不 同 的 是 ， 本 划 的 样本 为 X 二 {x'},， 我 们 有 非 监 督学 习 (unsupervised learning) 问题。 
只 有 x 而 没有 标号 r'， 也 就 是 说 ， 我 们 不 知道 x 来 自 哪个 分 支 。 这 样 ， 我们 应 当 估 计 二 
者 : 第 一 ,我 们 应当 估 计 给 定 实 例 所 属 的 分 支 标 号 ri; 第 二 ,一 旦 我 们 估计 了 标号 ， 我 们 
就 要 估计 给 定 实 例 集 所 属 分 支 的 参数 。 为 此 ， 我 们 首先 讨论 一 种 简单 的 聚 类 算法 上 均值 聚 
类 ， 并 在 后 面 证 明 它 是 期 望 最 大 化 (Expectation-Maximization，EM) 算 法 的 一 个 特例 。 


7.3 k 均值 聚 类 


假设 有 一 个 图 像 ， 按 24 位 /像素 存放 ， 可 能 有 多 达 1600 万 种 颜色 。 假 定 有 8 位 /像素 
的 彩色 屏幕 ， 只 能 显示 256 PAE., RIE 1600 万 种 颜色 中 找 出 最 佳 的 256 种 颜色 ， 
使 得 仅 使 用 调 色 板 中 256 种 颜色 的 图 像 看 上 去 尽 可 能 接近 原来 的 图 像 。 这 是 颜色 量化 (col- 
or quantization) 问 题 ， 其 中 从 高 分 辩 率 映射 到 低 分 辨 率 。 在 一 般 情 况 下 ， 目 标 是 从 连续 空 
间 映 射 到 离散 空间 ， 这 一 过 程 称 作 向 量 量 化 (vector quantization) 。 

当然 ， 我 们 总 能 均匀 地 进行 量化 ,但 是 把 映射 表 目 指派 到 图 像 中 不 存在 的 颜色 ， 或 不 
给 图 像 中 频繁 使 用 的 颜色 分 配 附 加 的 表 目 会 浪费 颜色 映射 。 例 如 ， 如 果 图 像 是 海景 ， 则 我 
们 可 望 看 到 许多 深浅 不 一 的 蓝 色 而 不 是 红色 。 因 此 ， 颜 色 映 射 表 目的 分 布 应 当 尽 可 能 接近 
地 反映 原来 的 密度 ， 将 更 多 的 表 目 放 在 高 密度 区 域 ， 而 丢弃 没有 数据 的 区 域 。 

假定 有 样本 X 王 {z) 之 |。 有 有 R 个 参考 向 量 (reference vector)m;, j—1. =, k, FER Cà, 
量化 的 例子 中 , xe 24 位 的 图 像 像 素 值 ，m; 是 颜色 映射 表 目 ， 也 是 24 位 ，& 一 256。 

暂时 假定 我 们 以 某 种 方法 得 到 了 mj 的 值 ， 稍 后 我 们 将 讨论 如 何 学 习 它 们 。 然 后 ， 在 
显示 图 像 中 ， 给 定 像素 央 ， 用 颜色 映射 中 最 相似 的 、 满 足下 式 的 表 目 m; 表 示 它 

| x’ — m; | = min | x! — m, | 

也 就 是 说 ,我 们 使 用 参考 向 量 符 号 系统 中 最 接近 的 值 ， 而 不 是 使 用 原始 数据 。m; 又 称 

为 码 本 向 量 (codebook vector) 或 码 字 (code word)， 因 为 这 是 一 个 编码 /解码 过 程 ( 参 见 


164 


165 


96 第 7 时 


图 7-1): 从 x 到 i 是 使 用 编码 本 m, GS, t. 上 k&) 对 数据 编码 的 过 程 ， 而 在 接收 端 ， 从 i 
产生 m; 是 解码 。 量 化 也 能 压缩 (compression)。 例 如 ， 没有 使 用 24 位 存储 (或 在 通信 线 上 
传输 ) 每 个 x*， 可 以 只 存储 /传输 它 在 颜色 映射 中 的 下 标 i， 使 用 8 位 索引 1 ~256 中 的 值 ， 


得 到 几乎 为 3 的 压缩 率 。 存 储 /传输 的 也 是 颜色 映射 。 


Vs 


$ 


fF 





图 7-1 给 定 x， 编码 器 发 送 最 近 码 字 的 下 标 ， 而 解码 器 使 用 接收 到 
的 下 标 产生 码 字 x'。 误 差 为 x 一 x | 
让 我 们 看 看 如 何 计 算 m;。 当 x! 用 m; 表 示 时 ， 存 在 一 个 正比 于 距离 |x' 一 mj 上 ‖ 的 误差 。 
为 了 使 新 图 像 看 上 去 像 原来 的 图 像 ， 应 当 对 所 有 的 像素 ， 使 该 距离 尽 可 能 小 。 总 重 构 误差 


(reconstruction error) 定 义 为 


Etim yi [30 = Dd) >| — mf? (7-3) 
其 中 
B = 1 wR x‘ —m;| = min, |x‘ — m; | (7-4) 
0 否则 


最 好 的 参考 向 量 是 最 小 化 总 重 构 误差 的 参考 向 量 。b; 也 依赖 m;， 并 且 我 们 不 能 解析 地 
求解 这 个 优化 问题 。 对 此 ， 我 们 有 一 个 称 作 上 均值 聚 类 (k-means clustering) 的 迭代 过 程 。 
HE. 我们 以 随机 初始 化 的 m; 开 始 。 然 后 ， 在 每 次 迭代 中 ， 先 对 每 个 x 使 用 式 (7-4) 计 算 
估计 标号 (estimated label)b;。 如 果 如 为 1， 则 x' 属 于 的 分 组 m;。 人 然后， 一旦 有 了 这 些 标 
号 ， 就 最 小 化 式 (7-3)。 取 它 关 于 m; 的 导数 并 令 其 等 于 0， 得 到 

>b 
M; = Sp (7-5) 

将 参考 向 量 设置 为 它 所 代表 的 所 有 实例 的 均值 。 注 意 ， 除 了 用 估计 的 标号 b 取代 标号 
ri 外 ， 这 与 式 (7-2) 中 的 均值 公式 相同 。 这 是 一 个 迭代 过 程 ， 因 为 一 旦 我 们 计算 了 新 的 mi， 
b; 就 改变 并 且 需 要 重新 计算 ， 这 反 过 来 又 影响 m;。 这 个 两 步 过 程 重复 ， 直 到 m fa (N 
图 7-2) 。 上 均值 算法 的 伪 代 码 在 图 7-3 中 给 出 。 

k 均值 的 一 个 缺点 是 ， 它 是 一 个 局 部 搜索 过 程 ， 并且 最 终 的 m; 高 度 依赖 于 初始 的 m;。 
对 于 初始 化 ， 存 在 各 种 不 同 的 方法 : 

e 可 以 简单 地 随机 选择 个 实例 作为 初始 的 m;。 

e 可 以 计算 所 有 数据 的 均值 ， 并 将 一 些小 随机 向 量 加 到 均值 上 ， 得 到 个 初始 的 m;。 

e 可 以 计算 主 成 分 ， 将 它 的 值 域 化 分 成 个 相等 的 区 间 ， 将 数据 化 分 成 & 个 分 组 ， 然 

后 取 这 些 分 组 的 均值 作为 初始 中 心 。 








Xi 


图 7-2 上 均值 演变 。 叉 指示 中 心 位置 。 数 据点 根据 最 近 的 中 心 标记 


初始 化 mi, i=1, =e, ko PUM, Ki m; 初 始 化 为 个 随机 的 x' 
Repeat 
For BH HY) x EX 
w= |. hi HE || x* — m; || ^ min; || x! —m; | 
0 否则 


For PI BS m;. i=l, «+, k 
m;-— Sox! / ibi 
Until m; Wi sx 





图 7-3 上 均值 算法 


收敛 后 ， 所 有 的 簇 中 心 都 应 当 涵 盖 数 据 实例 的 某 个 子 集 并 且 是 有 用 的 ， 因 此 ， 最 好 将 
中 心 初始 化 在 我 们 相信 有 数据 的 地 方 。 

还 有 一 些 算 法 动态 地 添加 新 中 心 或 删除 空 的 中 心 。 在 领导 者 聚 类 算法 (leader cluster 
algorithm) 中 ， 一 个 远离 (用 一 个 国 值 定 义 ) 已 有 中 心 的 实例 导致 在 该 点 创建 一 个 新 中 心 ( 我 
们 将 在 第 12 章 讨 论 一 种 这 样 的 神经 网 络 算法 ART). 或 者 , 一 个 涵盖 了 大 量 实 例 
( 3jb1/N > 0) 的 中 心 可 以 分 型 为 两 个 (通过 把 一 个 小 随机 向 量 加 到 两 个 拷贝 中 的 一 个 上 ， 


使 得 它们 不 同 ) 。 类 似 地 ， 涵 盖 太 少 实例 的 中 心 可 以 删除 ， 并 从 输入 空间 的 某 个 其 他 部 分 
重新 开始 。 

kk 均值 算法 用 于 聚 类 ， 也 就 是 说 ， 用 于 寻找 数据 中 的 分 组 ， 其 中 分 组 用 它们 的 中 心 
(分 组 的 典型 代表 ) 表 示 。 疝 量 量化 是 聚 类 的 一 种 应 用 ,但 是 聚 类 也 用 于 分 类 或 回归 阶段 之 
前 的 预 处 理 (preprocessing)。 给 定 x, HIHA bi 时， 进行 从 原始 空间 到 维 空间 的 映射 ， 
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即 映 射 到 & 维 超 立 方 体 的 一 个 阳 角 上 。 然 后 ， 可 以 在 这 个 新 空间 学 习 回 归 或 判别 式 函 数 。 
我 们 将 在 第 12 间 讨 论 这 样 的 方法 。 


7.4 期 望 最 大 化 算法 


TE k HEF, 我们 把 聚 类 看 作 寻 找 最 小 化 总 重 构 误 差 的 码 本 向 量 问题 。 在 本 节 中 ， 我 
们 的 方法 是 概率 的 ， 并 且 我 们 寻找 最 大 化 样本 似 然 的 支 密 度 参 数 。 使 用 式 (7-1) 的 混合 模 
型 , FEA x — (x ), 的 对 数 似 然 为 


k 
£(@| x) = log [| p(x |®) = Slog >) p(x |G, PG,) (7-6) 
t t i=] 


其 中 @ 包含 先 验 概率 POG, MLE HE px | 96) 的 有 效 统计 量 。 不 幸 的 是 ， 我 们 不 能 解析 地 
求解 参数 ， 因 而 需要 借助 于 迭代 优化 。 

Jj] 72 dx X 46 (Expectation-Maximization, EM) $$ i: (Dempster, Laird 和 Rubin 1977; 
Redner 和 Walker 1984) 用 于 最 大 似 然 估 计 ， 其 中 问题 涉及 两 组 随机 变量 ， 其 中 一 组 X 是 
可 观测 的 ， 而 男 一 组 Z 是 隐藏 的 。 算 法 的 目标 是 找到 参数 向 量 B， 它 最 大 化 X 的 观测 值 
HEAR EC | X)。 但 是 ， 在 不 可 行 时 ， 我 们 关联 附加 的 隐藏 变量 (hidden variable)Z， 并 使 
用 二 者 表示 基础 模型 ， 最 大 化 X 和 Z 联合 分 布 的 似 然 ， 完 全 似 然 Lc(®|X，2)。 

由 于 2 值 不 是 观测 的 ， 所 以 我 们 不 能 直接 求解 完全 数据 似 然 上 ec 。 而 是 给 定 X 和 当前 参 
数值 @ (其 中 /是 迭代 次 数 )， 求 它 的 期 望 @8。 这 是 算法 的 期 望 (Expectation， 玉 ) 步 。 然 后 ， 
在 最 大 化 (Maximization，M) 步 ， 我们 寻找 新 的 参数 值 P ”， 它 最 大 化 期 望 。 这 样 

EX: Q(@|6') = ECGrcCcoO| x .z2| X9) 
M3 d" = arg max ollo) 
Dempster, Laird 和 Rubin(1977) 证 明 增 加 @ 意 味 着 增加 不 完全 似 然 
£69 |x) > NP | x) 

在 混合 模型 的 情况 下 ， 隐 藏 变量 是 观测 的 源 ， 即 哪个 观测 属于 哪个 分 文 。 如 果 这 些 是 
给 定 的 ， 例 如 作为 监督 学 习 的 类 标号 给 定 ， 则 我 们 就 想 知道 调整 哪些 参数 ， 以 便 拟 合 数据 
点 。EM 算法 的 执行 过 程 如 下 : 在 让步， 给 定 分 支 的 当前 知识 ， 我 们 估计 这 些 标号 ; 而 在 
M 步 ， 给 定 玉 步 估 计 的 标号 ， 我 们 更 新 我 们 的 分 支 知 识 。 这 两 步 与 & 均 值 的 两 步 相同 : 以 
的 计算 (E 步 ) 和 mj; 的 重新 估计 (M A) 。 

我 们 定义 一 个 指示 变量 (indicator variable) AY [e] Œ zx‘ 二 {zi，*…，xzi}， 其 中 如 果 x' JE 
FRG: M zi 二 1， 否 则 zi AO, z 是 多 项 分 布 ， 以 先 验 概率 x; 取 自 & TX, Æ PG) 
G. TE 


k 
P(z) = [| x (7-7) 
i=] 
观测 * 的 似 然 等 于 它 的 概率 ， 被 生成 它 的 分 支 指定 : 
pz!) = Il» (x! )5 (7-8) 


p(x') 是 pO! 5;) 的 简写 。 联 合 密度 为 
PE z y = PCs) pts |z") 
而 独立 同 分 布 的 样本 X 的 完全 数据 似 然 为 
£cXOD | X .z) =log | | p(x‘, z' Io) = 2 og, z' i) 


= >) logp(z' |Ø) + logp(x' |z',®) = 5) S)zi[logn; + logp;(x' |®)] 
Es: EN, 
9(|p') =E[ logP(X,Z)|x,@' ] m 
—E[£c(Ó| x .z?|x.9] = >) X EL |x. [logs + logp; (x' |^] 


其 中 
E[ zi |x, ] =E[zi |x' 0] x 是 独立 同 分 布 
=P = 1 |x) zi 是 0/1 随机 变量 
_blx [zi = 1,8)P(z = 1/8) m 
_ bí | rx _ bG'|6,,9)P()) 
Moo|ó0x Xp |G DPG) 
=P (G; |x) = hi (7-9) 


我 们 看 到 隐藏 变量 的 期 望 值 E[ zi 是 x' SEAT 36; 生成 的 后 验 概率 。 因 为 这 是 概率 ， 所 
WE O~1 之 间 ， 并 且 与 均值 的 0/1" 人 硬 ” 标 号 不 同 ， 它 是 “ 软 ” 标 号 。 
Mz: 最 大 化 〖， 得 到 下 一 组 参数 值 68， 
g = arg max O(@|0') 
其 中 
QBID) = * S hi[logz; + logp; (x! |6)] 


= 2) Dhilogr: + 2) Dyhilogp, Gr |) (7-10) 
第 二 项 独立 于 zt， 并 且 作为 拉 格 朗 日 ， 使 用 约 东 1n 一 1， 求解 


V, 2) Dhilogri CA( Dri—1)=0 
得 到 | 
Dihi 
e (7-11) 


JT; = 


这 类 似 于 式 (7-2) 的 先 验 计算 。 
类 似 地 ， 式 (7-10) 的 第 一 项 独立 于 分 支 ， 并 且 可 以 在 估计 分 支 的 参数 时 丢弃 。 我 
们 解 





Vo >) d,hilogp;(x' |) = 0 (7-12) 
Qn S LAE s ad xc P; Cx' I) — Nr On; , S;), W) M 步 为 
Mix! 
min ui 
2;h 
> iri — mi!) (x' — mt)" 
I IM pei (7-13) 


Shi 


t 
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这 里 ， 对 于 玉 步 的 高 斯 分 支 ， 计 算 
h! an x: |S; | 1 expl— (1/2) (x! —m,)! S;! (x' —m,)] 
© Xa |S; |"? exp[— (1/2) (xt — m,)7 S; (x — mj] 


而 且 ， 式 (7-13) 与 式 (7-2) 之 间 的 相似 性 并 非 偶然 。 估 计 的 软 标号 hi 取代 了 实际 的 (未 
知 的 ) 标 号 rio 

EM H k HERK., EZK kH 
EERE. a o m; 的 估计 ， 并且 
使 用 被 每 个 中 心 涵盖 的 实例 ， 我 们 估计 
S 和 》,b!i/N 得 到 x;。 从 那 开 始 运 行 


EM， 如 图 7-4 所 示 。 

正如 参数 分 类 (5.5 节 ) 一 样 ， 使 用 
小 样本 和 高 维度 ， 我 们 可 以 通过 简化 假 
设 来 正则 化 。 当 f(x’|1®)~N IOn;, S2) 
时 ， 在 共享 协 方差 矩阵 的 情况 下 ， 式 
(7-12) 化 简 为 


(7-14) 





min >) BN (x! — m)? 一 和 7940  -30  -20 Ho 0 10 — 20 
(7-15) Fd 7-4 数据 点 和 EM 拟 合 的 高 斯 分 布 ， 被 图 7-2 的 一 次 
M O5. do or On;, SD, 1E k SEERIA. IEMA SI, Bk AA 
le], EM 允许 估计 协 方差 矩阵 。 图 中 显示 了 被 较 
dt s j D 
PEA AEN E» 有 大 的 标记 的 数据 点 、 估 计 的 高 斯 密度 的 等 值 
min > iy Zoe (7-16) RFI hi —0. 5 的 分 离 曲线 (虚线 ) 
mS ~~ i S 


XERE (RA PE X BIEMJIR2EXXCT-30, WH, 不同 的 是 
exp[— (1/232) | x‘ — m; |? ] 
>, expL— (1/25?) | x — m; |? ] 


是 0 一 1 之 间 的 概率 。& DIRAS PRU bi 做 0/1 ERR, M hi 是 软 标号 (soft label), EW 
一 定 概 率 将 输入 指派 到 簇 中 。 当 使 用 hi 而 不 是 5; 时， 实例 对 所 有 分 支 的 参数 更 新 都 有 贡 
献 ， 对 每 个 分 支 以 一 定 的 概率 。 当 实例 靠近 两 个 中 心 的 中 点 时 ， 这 特别 有 用 。 

KH, RIAR k HERK E EM 用 于 高 斯 混合 模型 的 特例 ， 这 里 假定 输入 是 独立 
的 、 具 有 相等 和 共享 的 方差 ， 所 有 分 文部 有 相等 的 先 验 ， 并 且 标 号 是 “ 便 的 "。 因 此 ,上 & 均 
值 用 圆 铺设 输入 密度 ， 而 EM 一 般 用 任意 形状 、 任 意 方向 的 椭圆 。 


hj = (7-17) 


7.5 潜在 变量 混合 模型 

当 全 协 方差 矩阵 与 混合 高 斯 分 布 一 起 使 用 时 ， 即 使 没有 奇异 性 ， 但 如 果 输 入 维度 很 高 
且 样 本 很 小 ， 则 仍然 有 过 拟 合 的 危险 。 为 了 减少 参数 的 个 数 ， 假 定 一 个 共同 的 协 方差 矩阵 
可 能 并 不 正确 ， 因 为 簇 实际 上 可 能 具有 不 同 的 形状 。 假 定 对 角 和 矩阵 可 能 更 危险 ， 因 为 它 排 
出 了 所 有 的 相关 性 。 

男 一 种 选择 是 在 簇 中 做 维度 归 约 。 这 减少 了 参数 个 数 ， 但 仍然 捕获 相关 性 。 自 由 参数 
的 数量 通过 归 约 空间 的 维度 来 控制 。 


A TE Te IP C FOP BT C6. 5 节 ) 时 ,我们 寻找 产生 和 族 中 数据 的 潜在 变量 (latent variable) 

或 隐藏 变量 (hidden variable) 或 因子 (factor) (Bishop 1999); 
px |G) ~ N Cm; ,V;V? + Y:) (7-18) 

H:rp VA W ERG A A aR a AF ETT 22. Rubin 和 Thayer(1982) 给 出 了 因子 分 析 的 EM 
方法 。 可 以 把 它 推广 到 混合 模型 ， 找 到 混合 因子 分 析 方 法 (mixtures of factor analyzer) 
(Ghahramani 和 Hinton 1997), Æ E 4, 在 式 (7-9) 中 我 们 使 用 式 (7-18); 而 在 M 步 ， 我 
们 对 Vi 和 更 ;而 不 是 对 S$; 求解 式 (7-12)。 类 似 地 ， 也 可 以 在 分 组 中 做 PCA， 这 称 作 混合 概 
率 主 成 分 分 析 方 法 (mixtures of probabilistic principal component analyzer) (Tipping and 
Bishop 1999), 

当然 ， 我 们 可 以 使 用 EM 学 习 S, Aa AT EE BET S CEA 或 PCA， 但 是 做 下 M 更 
好 ， 因 为 它 将 两 个 步骤 结合 在 一 起 ， 并 做 软 划 分 。 每 个 实例 对 所 有 分 组 的 潜在 变量 的 计算 
都 有 页 献 ， 权 重 为 hi. 


7.6 聚 类 后 的 监督 学 习 


与 第 6 章 讨论 的 维度 归 约 方法 一 样 ， 聚 类 可 以 用 于 两 个 目的 。 第 一 ， 它 可 以 用 来 探查 
数据 ， 理 解数 据 的 结构 。 第 二 ， 它 可 以 用 来 将 数据 映射 到 新 空间 ， 这 里 监督 学 习 更 容易 。 

维度 归 约 方法 用 来 发 现 变 量 之 间 的 相关 性 ， 从 而 对 变量 进行 分 组 。 另 一 方面 ， 聚 类 方法 
用 来 发 现实 例 之 间 的 相似 性 ， 从 而 对 实例 进行 分 组 。 如 果 找 到 这 样 的 分 组 ， 就 可 以 (通过 领 
域 专家 ) 对 它们 命名 ， 和 定义 它们 的 属性 。 我 们 可 以 选 组 均值 作为 分 组 中 实例 的 代表 原型 ， 或 
者 可 以 写 出 属性 的 可 能 值 域 。 这 可 以 更 简单 地 描述 数据 。 例 如 ， 如 果 一 个 公司 的 顾客 看 上 去 
都 归属 于 & 个 分 组 之 一 ， 称 为 分 段 (顾客 通过 人 口 统计 属性 和 与 公司 的 交易 勾画 )， 则 将 更 好 
地 理解 顾客 要 素 ， 使 得 公司 可 以 针对 不 同类 型 的 顾客 使 用 不 同 的 营销 策略 。 这 是 客户 关系 管 
理 (Customer Relationship Management，CRM) 的 一 部 分 。 同 样 ， 公 司 还 可 以 为 没有 归于 任何 
大 分 组 的 顾客 ,或 需要 特殊 关注 的 顾客 (例如 ， 流 失 的 顾客 ) 制 定 营 销 策 略 。 

聚 类 也 常常 作为 预 处 理 步 最 使 用 。 正 如 第 6 章 的 维度 归 约 使 我 们 可 以 实现 到 新 空间 的 
映射 一 样 ， 聚 类 后 ， 也 可 以 映射 到 新 的 & 维 空间 ， 其 中 维 是 h; (或 6;， 如 果 损 失 一 些 信 
筷 ) 。 在 监督 学 习 中 ， 可 以 在 新 空间 学 习 判 别 式 或 回归 郴 数 。 然 而 ， 与 PCA 等 维度 归 约 方 
法 不 同 ， 新 空间 的 维度 & 可 能 比 原始 空间 的 维度 d X. 

当 我 们 使 用 像 PCA 这 样 的 方法 时 ， 新 的 维 是 原始 维 的 组 合 ， 在 新 空间 中 表示 任何 实例 ， 
所 有 的 维 都 有 贡献 ， 即 所 有 的 z; 都 不 是 零 。 在 使 用 像 附 类 这 样 的 方法 时 ， 新 的 维 是 局 部 定义 的 ， 
存在 很 多 新 维 5， 但 是 它们 之 中 只 有 一 个 (或 几 个 ， 如 果 使 用 及 ) 具 有 非 零 值 。 在 前 一 种 情况 下 ， 
存在 少量 的 维 ， 但 都 对 表示 起 作用 ， 我 们 有 分 布 表 示 (distributed representation); 在 后 一 种 情况 
下 ， 存 在 许多 的 维 ， 但 只 有 少量 起 作用 ， 我 们 有 局 部 表示 (local representation) 。 

在 监督 学 习 之 前 使 用 非 监 督 聚 类 或 维度 归 约 的 优点 是 ， 后 者 不 需要 标记 的 数据 。 标 记 
数据 的 开销 很 大 。 我 们 可 以 使 用 大 量 未 标记 的 数据 学 习 秘 的 参数 ， 然 后 使 用 少量 标记 的 数 
据 在 第 二 阶段 学 习 分 类 或 回归 。 非 监督 学 习 又 称 为 “学 习 通 常 发 生 的 事 ”(Barrow 1989), 
当 后 随 监 督学 习 时 ,我们 先 学 习 通 常 发 生 的 事 ， 然 后 学 习 它 意味 什么 。 我 们 将 在 第 12 章 
讨论 这 种 方法 。 

对 于 分 类 ， 当 每 个 类 都 是 一 个 由 大 量 分 文 组 成 的 混合 模型 时 ， 整 个 密度 是 混合 的 混合 
密度 (mixture of mixtures): 


p(x|Ci) = >) plg) PG) 
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K 
p(x) = > pte [COPA 
j=) 


其 中 是 组 成 p(x|c,) 的 分 支 数 ，6, 是 类 i 的 分 支 ;。 注 意 ， 不 同 的 类 可 能 需要 不 同 的 分 
支 数 。 正 如 我 们 前 面 所 讨论 的 ， 分 别 为 每 个 类 学 习 分 支 的 参数 (或 许 在 正则 化 之 后 )。 这 比 
用 许多 分 支 拟 合 所 有 类 的 数据 ， 然 后 用 类 标记 它们 的 方法 好 ， 


7.7 谱 聚 类 


取代 在 原始 空间 聚 类 ， 一 种 可 能 的 方法 是 先 把 数据 映射 到 一 个 新 空间 ， 然 后 在 那里 聚 
类 。 新 空间 具有 约 化 的 维度 ， 使 得 相似 性 更 加 显而易见 。 任 何 特征 选择 和 提取 方法 都 可 以 
用 于 这 一 目的 ， 而 其 中 的 一 种 方法 是 6.12 节 的 拉 普 拉 斯 特征 映射 ， 其 目标 是 以 保持 逐 对 
相似 性 的 方式 放置 数据 实例 。 

这 样 的 映射 后 ， 相 似 的 点 放 在 附近 ， 而 这 可 望 提 高 聚 类 (例如 ， 使 用 & 均 值 的 谱 聚 类 ) 
的 性 能 。 这 正 是 谱 聚 类 (spectral clustering) 的 思想 (von Luxburg 2007) 。 谱 聚 类 有 两 步 : 

1) 在 原始 空间 中 ,，(〈 通 过 固定 个 数 的 近邻 或 距离 浆 值 ) 定 义 局 部 邻 域 。 然 后 ， 对 相同 
邻 域 中 的 实例 ，( 例 如 ， 使 用 高 斯 核 ) 定 义 与 实例 之 间 的 距离 成 反比 的 相似 性 度量 。 记 住 ， 
不 在 同一 个 邻 域 中 的 实例 之 间 的 相似 度 设置 为 0， 因 而 它们 之 间 的 安排 可 以 是 任意 的 。 在 
这 种 拉 普 拉 斯 特征 映射 下 ， 使 用 特征 般 入 把 实例 安置 在 新 空间 。 

2) 使 用 新 空间 中 的 新 的 数据 坐标 运行 均值 聚 类 。 

由 6. 12 节 我 们 知道 ， 当 下 是 逐 对 相似 度 矩 阵 ， 是 对 角 线 上 的 元 素 ( d; = SB, ) 的 


对 角 和 矩阵 时 ， 图 拉 普 拉 斯 定义 为 
L=D-—B 

这 是 非 规范 化 的 拉 普 拉 斯 。 有 两 种 方法 对 它 规范 化 。 一 种 方法 与 随机 游 走 密切 相关 
(Shi 和 Malik 2000), ， 而 另 一 种 方法 是 构建 一 个 对 称 矩 阵 (Ng，jJordan 和 Weiss 2002) 。 它 
们 可 能 导致 更 好 的 聚 类 性 能 : 

L,, =I— DB 
Len 一 工 一 DBD? 

如 果 存 在 宛 余 的 或 相关 的 特征 ， 则 在 使 用 欧 氏 距离 聚 类 之 前 先 做 维度 归 约 是 个 不 错 的 
主意 。 使 用 拉 普 拉 斯 特征 映射 比 使 用 多 维 定 标 或 主 成 分 分 析 更 有 意义 ， 因 为 这 两 个 检查 所 
有 实例 之 间 的 逐 对 相似 度 的 保持 情况 ， 而 拉 普 拉 斯 特征 映射 只 关心 以 与 它们 之 间 的 距离 成 
反比 方式 保持 邻近 实例 的 相似 性 。 这 具有 如 下 效果 : 在 原始 空间 邻近 的 实例 (很 可 能 在 同 
一 个 簇 内 ) 将 安置 在 新 空间 中 非常 接近 的 位 置 ， 从 而 使 & 均值 更 容易 处 理 ， 而 那些 有 一 定 
的 距离 的 实例 (很 可 能 属于 不 同 的 簇 ) 将 安置 在 相距 很 远 的 地 方 。 图 应 该 总 是 连通 的 ， 即 ， 
局 部 邻 域 应 该 足够 大 ， 以 便 连 接 簇 。 记 住 ， 具 有 0 特征 值 的 特征 向 量 的 个 数 是 分 支 数 ， 并 
且 应 该 为 1。 

注意 ， 尽 管 相 似 性 是 局 部 的 ， 但 是 它们 会 传播 。 考 虑 3 个 实例 a、5 Mec, BE ab 
落 在 相同 的 邻 域 ， 5 和 < 也 是 , 但 a Alc 不是。 然而 ， 因 为 a 和 2 将 邻近 安置 ,5 和 c 也 邻 
近 安 置 ， 所 以 a 也 将 落 在 靠近 c 的 地 方 ， 并 且 它 们 很 可 能 被 指派 到 相同 的 艇 。 现 在 考虑 a 
和 qd， 它们 不 在 该 邻 域 中 ， 它 们 之 间 具 有 太 多 的 中 间 节 点 。 这 两 个 实例 不 会 安置 在 很 接近 
的 位 置 ， 并 且 很 不 可 能 指派 到 相同 的 簇 。 

依赖 于 所 用 的 图 拉 普 拉 斯 ， 依 赖 于 邻 域 的 大 小 或 高 斯 散 度 ， 可 能 得 到 不 同 的 结果 ， 所 
以 应 该 尝试 不 同 的 参数 (von Luxburg 2009), 


7.8 层次 聚 类 


我 们 从 统计 学 观点 讨论 了 聚 类 ， 将 聚 类 看 作 一 个 拟 合 数据 的 混合 模型 ， 或 找 出 最 小 化 
重 构 误 差 的 码 字 。 还 有 一 些 聚 类 方法 ， 它 们 只 使 用 实例 之 间 的 相似 性 ， 而 对 数据 没有 其 他 
要 求 。 目 标 是 找 出 分 组 ， 使 得 在 同一 个 分 组 中 的 对 象 比 在 不 同 分 组 中 的 对 象 更 相似 。 这 种 
方法 通过 层次 聚 类 (hierarchical clustering) 来 实现 。 

这 需要 使 用 定义 在 实例 间 的 相似 性 度量 ,或 等 价 地 ， 距 离 度 量 。 通常 使 用 欧 氏 距离 ， 
其 中 需要 确保 所 有 的 属性 都 具有 相同 的 扩 度 。 欧 氏 距 离 是 闵可夫 斯 基 焉 离 (Minkowksi dis- 
tance) 的 特例 ， 其 中 p=2; 


\/p 


d 
dy (at x) = | 9 p — 2 | 
j=l 
城市 块 距离 (city-block distance) F¥ Zit I 
d 
da(xX se) = >) laj— ad] 


HRR (agglomerative clustering) 算 法 从 N 个 分 组 开始 ， 每 个 分 组 最 初 只 包含 一 个 
训练 实例 ， 重 复合 并 相似 的 分 组 ， 形 成 较 大 的 分 组 ， 直 到 只 有 一 个 分 组 。 分 裂 聚 类 (divi- 
sive clustering) 算 法 以 相反 的 方向 进行 ， 从 单个 分 组 开始 ， 将 较 大 的 分 组 分 裂 成 较 小 的 分 
组 ， 直 到 每 个 分 组 都 包含 单个 实例 。 

在 凝聚 算法 的 每 次 迭代 中 ， 选 择 两 个 最 近 的 分 组 合并 。 在 单 链接 聚 类 (single-link 
clustering) 中 ， 距 离 定义 为 两 个 分 组 的 所 有 可 能 元 素 对 之 间 的 最 小 距离 ， 

d(G,,6) = min d(x ,x') (7-19) 


x EG; EG, 


考虑 一 个 加 权 的 、 全 连接 的 图 ， 顶 点 对 应 于 实例 ， 顶 点 之 间 的 边 的 权重 等 于 实例 之 间 
的 距离 。 单 链接 方法 对 应 于 构造 该 图 的 最 小 生成 树 。 
在 全 链接 聚 类 (complete-link clustering) 中 ， 两 个 分 组 之 间 的 距离 取 所 有 可 能 对 之 间 
的 最 大 距离 : 
d(G;.G,) = max d(x x) (7-20) 


x EG; x €, 
这 两 种 是 最 频繁 使 用 的 、 用 于 选择 两 个 最 近 的 分 组 进行 合并 的 度量 。 其 他 可 能 的 选择 是 使 
用 所 有 可 能 点 对 之 间 平 均 距 离 的 平均 链接 方法 ， 度 量 两 个 分 组 形 心 (均值 ) 之 间距 离 的 形 心 距离 。 
一 旦 运行 了 凝聚 方法 ， 结 果 通 常 被 绘制 成 一 个 称 作 系统 树 图 (dendrogram) 的 层次 结 
构 。 这 是 一 棵 树 ， 其 中 树叶 对 应 于 实例 ， 按 照 它 们 合并 的 次 序 分 组 。 图 7-5 中 给 出 了 一 个 
例子 。 该 树 可 以 在 任意 水 平 截断 ， 得 到 期 望 个 数 的 分 组 。 
LL LL LL 





a b c d e f 


图 7-5 二 维 数据 集 和 展示 单 链 接 聚 类 结果 的 系统 树 图 。 注 意 ， 树 叶 
被 排序 使 得 分 支 不 交叉 。 树 在 期 望 值 hn 上 截断 以 得 到 入 
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单 链 接 和 全 链接 方法 用 不 同 的 方法 计算 分 组 之 间 的 距离 ， 这 影响 聚 类 结果 和 系统 
树 图 。 在 单 链接 方法 中 ， 两 个 实例 在 水 平 h 合 并 为 一 组 ， 如 果 它 们 之 间 的 距离 小 于 h， 
或 者 存在 一 个 中 间 实 例 序列 使 得 连续 实例 之 间 的 距离 小 于 h。 男 一 方面 ， 在 全 链接 方 
法 中 ， 一 个 分 组 中 的 所 有 实例 之 间 的 距离 都 小 于 hh。 单 链接 簇 可 能 因 这 种 “链接 ”效应 
MAKER 7-5 中 ,如果 在 e 和 <c 之 间 有 一 个 实例 会 怎么 样 ?) 全 链接 簇 趋 向 于 更 
A 。 


7.9 ”选择 族 个 数 


与 任何 学 习 方 法 一 样 ， 聚 类 也 有 自己 的 调整 复杂 度 的 控制 参数 ， 这 就 是 族 数 k。 给 定 
&， 聚 类 总 是 找 出 & 个 中 心 ， 不 管 它 们 是 实际 上 有 意义 的 分 组 ， 还 是 使 用 算法 强加 的 分 组 。 
存在 多 种 调整 的 方法 : 

e 在 某 些 诸如 颜色 量化 的 应 用 中 , & 由 应 用 确定 。 

e 使 用 PCA 在 二 维 平 面 绘制 数据 可 能 用 来 发 现 数据 的 结构 和 数据 中 的 复数 。 

e 增 量 方法 可 能 有 助 于 确定 k: 设置 允许 的 最 大 距离 等 价 于 设置 每 个 实例 允许 的 最 大 
重 构 误 差 。 

e 在 某 些 实际 应 用 中 ,分 组 的 确认 可 以 人 工地 进行 ， 即 检查 簇 是 否 实际 上 对 数据 中 有 
意义 的 分 组 编码 。 例 如 ， 在 数据 挖掘 应 用 中 ， 领 域 专家 可 以 做 这 项 工作 。 在 颜色 量 
化 中 ,我 们 可 以 目 视 检查 图 像 ， 检 查 它 的 质量 (尽管 我 们 的 眼睛 和 大 脑 并 不 逐个 像 
素 地 分 析 图 像 ) 。 

依赖 于 使 用 的 聚 类 方法 类 型 ， 我 们 可 以 将 重 构 误差 或 对 数 似 然 作为 & 的 函数 绘制 图 

形 ， 并 找 出 “拐点 ”。 足 够 大 的 之后， 算法 将 开始 分 裂 分 组 ， 在 这 种 情况 下 ， 重 构 误 差 将 
不 会 大 幅度 降低 ， 对 数 似 然 将 不 会 大 幅度 提高 。 类 似 地 ， 在 层次 聚 类 中 ， 通 过 观察 水 平 之 
间 的 差 ， 我 们 可 以 决定 好 的 划分 。 


7.10 注释 


混合 模型 在 统计 学 中 频繁 使 用 。 专 用 教科 书包 括 Titterington, Smith 和 Makov 
(1985); McLachlan 和 Basford(1988) 的 书 。McLachlan and Krishnan(1997) 讨 论 了 EM 算 
法 的 最 近 进 展 以 及 如 何 加 快 它 的 收敛 性 和 各 种 变形 。 在 信号 处 理 中 , & 均 值 称 作 Linde- 
Buzo-Gray(LBG) 算 法 (Gersho 和 Gray 1992)。 上 均值 频繁 地 用 于 统计 学 和 信号 处 理 的 各 种 
应 用 中 ， 并 且 具 有 许多 变形 ， 其 中 之 一 是 模糊 上 均值 (fuzzy k-means)。 输 入 与 分 支 的 模糊 
关系 也 是 一 个 OW~1 之 间 的 数 (Bezdek 和 Pal 1995)。Alpaydin(1998) 比 较 了 有 均值、 模糊 & 
均值 和 高 斯 混合 模型 上 的 EM, Xu 和 Jordan(1996) 给 出 了 EM 与 学 习 高 斯 混合 模型 的 其 
他 学 习 算 法 的 比较 。 在 小 数据 样本 上 ， 另 一 种 简化 假设 的 方法 是 使 用 贝 叶 斯 方法 (Ormo- 
neit 和 Tresp 1996) 。Moerland(1999) 在 一 组 分 类 问题 上 比较 了 高 斯 混合 模型 和 潜在 变量 
混合 模型 ， 用 实验 说 明了 潜在 变量 模型 的 优点 。Jain 和 Dubes(1988) 是 一 本 关于 聚 类 的 
书 ， 而 Jain, Murty 和 Flynn(1999); Xu 和 Wunsch(2005) 是 关于 聚 类 的 综述 。 

谱 聚 类 和 层次 聚 类 的 一 个 优点 是 ， 只 要 可 以 定义 实例 对 之 间 的 相似 度 或 距离 度量 ， 就 
不 需要 实例 的 向 量 表示 。 将 任意 的 数据 结构 (文档 、 图 、 网 页 等 ) 表 示 成 向 量 ， 使 得 欧 氏 距 
离 有 意义 始终 是 一 个 单调 乏味 的 任务 ， 并 且 导 致 人 为 的 表示 ， 如 词 袋 。 能 够 直接 使 用 定义 
在 原始 结构 上 的 相似 性 ( 相 异 性 ) 始 终 是 一 个 好 主意 ， 并 与 第 13 章 讨 论 核 机 器 时 的 核 男 数 
有 相同 的 优点 。 
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.11 习题 
. 在 图 像 压 缩 中 , k 均值 可 以 这 样 使 用 : 将 图 像 划 分 成 非 重 全 的 cxc 个 窗口 ， 并 且 这 些 c 维 


向 量 构成 样本 。 对 于 给 定 的 RGB TEE 2 的 寡 ) ， 我 们 做 & 均 值 聚 类 。 参 考 向 量 和 每 个 窗口 
的 下 标 通过 通信 线路 发 送 。 在 接收 端 ， 通 过 使 用 下 标 读 取 参考 向 量 表 来 重 构 图 像 。 写 一 个 
计算 机 程序 ， 对 于 不 同 的 & 和 < 值 来 做 这 件 事 。 对 于 每 种 情况 ,计算 重 构 误差 和 压缩 率 。 


. 我 们 可 以 做 均值 聚 类 ， 划 分 实例 ， 然 后 分 别 在 每 个 分 组 计算 $;。 为 什么 这 不 是 一 种 


好 的 想法 ? 

fe: 主要 有 两 个 理由 。 第 一 , k 均值 做 硬 划分 , 但 是 最 好 还 是 做 软 划 分 (使 用 
hE(0，1) 而 不 是 E10，1))， 使 得 (两 个 簇 之 间 的 ) 实 例 可 以 对 多 个 簇 的 参数 (在 此 情况 
下 是 协 方差 矩阵 ?都 有 贡献 [Hd ECLIPSE. 

第 二 , k 均值 使 用 欧 氏 距离 ， 而 我 们 知道 欧 氏 距离 意味 着 特征 具有 相同 的 尺度 并 且 
是 独立 的 。 使 用 $; 意 味 使 用 马 氏 距离 ， 因 此 能 够 应 付 不 同 的 尺度 和 依赖 性 。 


. 对 于 共享 任意 协 方差 矩阵 S 3X (7-150 8I s^ 的 情况 ， 共享 对 角 协 方差 矩阵 式 (7-16) 的 情 


况 ， 为 S$ 推导 M 步 公 式 。 


. 定义 一 个 多 元 伯 努 利 混合 模型 ， 其 中 输入 是 二 元 的 ， 并 推导 EM 公式 。 


解 : 当 分 支 是 多 元 伯 努 利 时 ， 有 d 维 二 元 向 量 。 假 定 维 是 独立 的 ， 有 (参见 5.7 节 ) 


d 
p; Cx' I$) — [laa 一 p) 
j=1 
其 中 ， O={ pi, ph Z^ Pu liie E 步 不 变 式 (7-9) 。 在 M 步 ， XT x 234 p; G=1, m 
k, j=l, "=, d), RRAK 
Q'=)) Sailogp,(x' |) = $) Xhi) zilogpy + (1 — x)log(l — pi) 
KF py 求 导 并 令 它 等 于 0， 得 到 
Shies 
2; 一 一 一 £ 


Dah; 
注意 : 除了 用 估计 的 “ 软 ?标号 h BME A RS bi 外 ， 这 与 式 (5-31) 相 同 。 


. 在 分 类 的 混合 的 混合 密度 方法 中 ， 如 何 调整 类 Ci; 的 分 支 数 Rs 
. 两 个 串 ( 例 如 ， 基 因 序 列 ) 之 间 的 编辑 距离 (edit distance) 是 将 一 个 串 转 换 成 另 一 个 串 所 


执行 的 字符 操作 (插入 、 删 除 、 替 换 ) 的 次 数 。 列 出 与 通常 的 在 串 上 使 用 欧 氏 距离 的 & 均 
值 相 比 ， 使 用 编辑 距离 做 谱 聚 类 的 优点 。 


. 如 何 用 二 元 输入 向 量 进行 层次 聚 类 ? 例如 ， 使 用 词 袋 表 示 对 文本 聚 类 。 
. 平均 链接 聚 类 与 & 均 值 聚 类 之 间 的 相似 和 不 同 是 什么 ? 


fi. 它们 都 是 通过 考察 深入 一 个 簇 中 的 实例 的 平均 距离 来 度量 相似 性 。 然 而 ， 在 
层次 模式 ， 存 在 不 同 分 辨 率 的 禾 。 


. 在 层次 聚 类 中 ， 如 何 得 到 局 部 自 适 应 距离 ? 这 样 做 的 优 缺 点 是 什么 ? 
.如何 使 得 均值 对 于 离 群 点 更 鲁 棒 ? 


解 : 离 群 点 是 一 个 远离 所 有 中 心 的 实例 。 我 们 不 希望 离 群 点 影响 解 。 一 种 可 能 性 是 ， 在 
计算 参数 (例如 ， 均 值 和 方差 ) 时 不 考虑 这 样 的 实例 。 注 意 ， 为 了 检测 离 群 点 ， 我 们 可 以 使 用 
马 氏 距 离 或 似 然 ， 但 是 不 能 用 后 验 。 我 们 将 在 8.7 市 讨论 用 于 检测 离 群 点 的 非 参 数 方法 。 
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非 参 数 方法 





在 前 面 的 章节 中 ， 我 们 讨论 了 参数 和 半 参 数 方法 。 那 里 ， 我 们 假定 数据 取 自 一 个 形式 
已 知 的 概率 分 布 或 混合 分 布 。 现 在 ， 我 们 将 讨论 非 参 数 方法 。 当 输入 密度 上 不 能 做 这 样 的 
假定 时 ， 可 以 使 用 非 参 数 方法 ， 让 数据 自己 说 话 。 我 们 考虑 密度 估计 、 分 类 、 离 群 点 检测 
和 回归 的 非 参数 方法 ， 并 讨论 它们 的 时 间 和 空间 复杂 度 。 


8.1 引言 


在 参数 方法 中 ， 无 论 是 密度 估计 、 分 类 还 是 回归 ， 我们 都 假设 了 一 个 在 整个 输入 空间 
上 有 效 的 模型 。 例 如 ， 在 回归 中 ， 当 我 们 假定 线性 模型 时 ， 我 们 假定 对 于 任何 输入 ， 输 出 
都 是 输入 的 相同 的 线性 函数 。 在 分 类 中 ， 当 我 们 假定 正 态 密度 时 ， 我 们 假定 类 的 所 有 实例 
都 取 目 这 个 相同 的 密度 。 参 数 方法 的 优点 是 ， 它 把 估计 概率 密度 、 判 别 式 或 回归 函数 问题 
归结 为 估计 少量 参数 值 。 它 的 缺点 是 ， 假 定 并 非 总 是 成 立 的 ， 并 且 不 成 立时 可 能 导致 很 大 
的 误差 。 如 果 我 们 不 能 做 这 种 假设 并 且 不 能 使 用 参数 模型 ， 如 同 我 们 在 第 7 章 所 看 到 的 ， 
一 种 可 能 的 方法 是 使 用 半 参 数 的 混合 模型 ， 其 中 密度 表示 成 多 个 参数 模型 的 析 取 。 

在 非 参 数 估 计 (nonparametric estimation) 中， 我 们 只 假定 相似 的 输入 具有 相似 的 输 
出 。 这 是 一 种 合理 的 假设 : 世界 是 平稳 的 ， 并 且 无 论 是 密度 、 判 别 式 还 是 回归 函数 都 缓慢 
地 变化 。 相 似 的 实例 意味 相似 的 事物 。 我 们 都 爱 我 们 的 邻居 ， 因 为 他 们 太 像 我 们 。 

因此 ， 我 们 的 算法 使 用 合适 的 距离 度量 ， 从 训练 集中 找 出 相似 的 实例 ， 并 且 由 它们 
插值 ， 得 到 正确 的 输出 。 不 同 的 非 参 数 方法 采用 不 同 的 定义 相似 性 或 不 同 的 由 相似 的 训 
练 实例 插值 的 方法 。 在 参数 模型 中 ， 所 有 的 训练 实例 都 影响 最 终 的 全 局 估计 。 而 在 非 参 
数 的 情况 下 ， 不 存在 单个 全 局 模型 ; 需要 时 ， 估计 局 部 模型 ， 它 们 只 受 邻 近 训 练 实例 的 
影响 。 

非 参 数 方 法 不 对 基础 密度 假定 任何 形式 的 先 验 参数 。 更 宽松 地 说 ， 非 参数 模型 是 不 固 
定 的 ， 而 它 的 复杂 性 依赖 于 训练 集 的 大 小 ， 或 者 更 确切 地 说 ， 依 赖 于 数据 中 问题 的 固有 复 
ARTE « 

在 机 需 学 习 文 献 中 ， 非 参数 方法 又 称 为 基于 实例 (instance-based) 或 基于 记忆 (memo- 
ry-based) 的 学 习 算 法 ， 因 为 它们 把 训练 实例 存放 在 一 个 查找 表 中 ， 并 且 由 它们 插值 。 这 意 
味 所 有 的 训练 实例 都 要 存放 ， 而 存放 所 有 训练 实例 需要 的 存储 量 为 O(N)。 此 外 ， 给 定 一 
个 输入 ， 应 当 找 出 相似 的 训练 实例 ， 而 找 出 它们 需要 的 计算 量 为 O(N)。 这 种 方法 也 称 为 
惰性 (lazy) 学 习 算 法 ， 因 为 不 像 和 急切 Ceager) 的 参数 方法 ， 当 给 定 训练 集 时 ， 它 们 并 不 计算 
模型 ， 而 是 将 模型 的 计算 推迟 到 给 定 一 个 检验 实例 时 才 进 行 。 对 于 参数 学 习 方 法 ， 模 型 都 
相当 简单 ， 具 有 o(d) 或 0(d) 量 级 个 参数 ， 并 且 一 旦 从 训练 集 计 算出 这 些 参数 ， 就 保存 模 
型 并 在 计算 输出 时 不 再 需要 训练 集 。 通 常 ，N Eod (或 必 ) 大 得 多 ， 而 这 种 存储 和 计算 量 的 
增加 是 非 参 数 方法 的 缺点 。 

我 们 从 估计 密度 函数 开始 ， 讨 论 它 在 分 类 上 的 应 用 。 然 后 ， 我 们 将 该 方法 推广 到 
回归 。 


8.2 非 参数 密度 估计 


与 通常 的 密度 估计 一 样 ， 假 设 样本 X= {zx'} 记 1 独立 地 从 一 个 未 知 的 概率 密度 p(，) 中 
抽取 。 方 (。) 是 p(，) 的 估计 。 从 单 变 量 情况 开始 ， 其 中 xz! 是 标量 ， 而 稍 后 我 们 推广 到 多 
累积 分 布 函 数 F(x) 在 点 x 的 非 参 数 估计 是 小 于 或 等 于 xz 的 样本 所 占 的 比例 


Hir omm) 
N 


F(x) = (8-1) 


其 中 # (asap xUFkART x 的 训练 实例 数 。 类 似 地 ， 密 度 函 数 的 非 参 数 估 计 可 
以 用 下 式 计 算 
_l1fpetz &2zt+kh)— fis sz 
h 是 区 间 长 度 ， 并 且 假 定 落 入 该 区 间 中 的 实例 x' 是 “足够 接近 ”的 。 本 章 提 供 的 技术 是 
一 些 变 体 ， 使 用 不 同 的 启发 式 策略 来 确定 邻近 的 实例 和 它们 对 估计 的 影响 。 


(8-2) 


8.2. 1 直方 图 估计 


最 古老 、 最 流行 的 方法 是 直方 图 (histogram)。 在 直方 图 中 ,输入 空间 被 划分 成 称 作 

箱 (bin) 的 相等 区 间 。 给 定 原点 zo。 和 箱 宽度 hh， 箱 是 区 间 [Lzo 十 mh， 志 十 (m 十 1)h)(m 是 正 
整数 或 负 整 数 ) ， 而 估计 由 下 式 给 出 

Bo = Hiv 号 在 相同 的 箱 中 } (8-3) 

在 构造 直方 图 时 ， 我 们 必须 选择 原点 和 箱 宽度 。 原 点 的 选取 影响 靠近 箱 边界 的 估计 ， 

但 是 影响 估计 的 主要 是 箱 宽度 : 使 用 小 箱 ， 估 计 是 尖峰 的 ; 而 使 用 大 箱 ， 估 计较 光滑 ( 参 

见 图 8-1)。 如 果 没 有 实例 落 入 箱 中 ， 则 估计 为 0， 并 且 在 箱 边界 处 不 连续 。 然 而 ， 直 方 图 
的 优点 是 : 一 旦 计算 和 存放 了 箱 估 计 ， 就 不 再 需要 保留 训练 集 。 


0.4 KAM: +2 
03 
02 
0.1 
00 I 2 3 4 5 6 7 8 
0.4 
03 
0.2 
0.1 
00 2 3 4 5 6 7 8 
- h-0.5 
0.6 
0.4 
02 
06 2 3 4 5 6 7 8 


图 8-1 各 种 箱 长 度 的 直方 图 .。“ 关 "表示 数据 点 
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质朴 估计 法 Cnaive estimator) (Silverman 1986) 使 得 我 们 不 必 设 置 原点 。 它 定义 为 


P(e) = Ni (8-4) 
它 等 于 x 总 是 在 宽度 为 h 的 箱 中 心 的 直方 图 估计 (参见 图 8-2) 。 该 估计 还 可 以 表示 为 

P . i ~ & —3 ; 

A(z) = Na a ) (8-5) 
jd 质朴 估计 法 : h=2 
0.3 
0.2 
0.1 
00 1 2 3 4 5 6 7 8 
0.4 =I 
0.3 
0.2 
0.1 
00 1 2 3 5 6 7 8 
ga h-0.5 
0.6 
0.4 
0.2 
00 1 2 3 4 5 6 7 8 

图 8-2 各 种 箱 长 度 的 质朴 估计 

其 中 权重 函数 定义 为 
1 mRilul<1/2 
w(u) = 


0 否则 
这 就 好 像 每 个 x 都 有 一 个 围绕 它 的 大 小 为 h 的 、 对 称 的 影响 区 域 ， 并 且 对 落 入 该 区 域 
的 过 都 贡献 1。 于 是 ， 非 参数 估计 恰 为 其 区 域 包 含 z 的 z' 的 影响 之 和 。 因 为 这 种 影响 区 域 
是 “ 硬 的 ”(0 或 1)， 所 以 估计 不 是 连续 函数 并 在 x th/2 处 有 跳跃 。 


8.2.2 核 估计 


为 了 得 到 光滑 的 估计 ， 我 们 使 用 一 个 光滑 的 权重 函数 ， 称 作 核 函数 (kernel function) 。 
最 流行 的 是 高 斯 核 : 








K(u) = l exp[— =] (8-6) 
y 21 - 
核 估 计 (kernel estimator) X. ££ Jj Parzen 窗口 (Parzen window)， 和 定义 为 
1 EH , 
B(x) = a DU K( ; ) (8-7) 


BPR K(。) 决 定 影响 的 形状 ， 而 窗口 宽度 有 决定 影响 的 宽度 。 与 质朴 估计 是 “ 箱 ” 的 
和 一 样 ， 核 估计 是 “ 凸 块 "的 和 。 所 有 的 UAM I 上 的 估计 具有 影响 ， 并 且 其 影响 随 
|z 一 zx'| 的 增 大 而 平滑 地 减 小 。 
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为 了 简化 计算 ， 如 果 |z 一 性 | 之 3， 则 K(，。) 可 以 取 0。 还 可 以 使 用 其 他 容易 计算 的 
PB, RE Kw) Xt u=0 取 最 大 值 ， 并 且 随 | | 增 大 而 对 称 地 减 小 即 可 。 

当 久 很 小 时 ， 每 个 训练 实例 都 在 一 个 小 区 域 具有 较 大 影响 ， 而 在 较 远 的 点 上 没有 影 
Wj, 34A 较 大 时 ， 有 更 多 的 核 重 全 ,有 上 且 得 到 较 光 滑 的 估计 (参见 图 8-3)。 如 果 KC + Aba 
非 员 且 积 分 为 1， 即 如 果 它 是 合法 的 密度 函数 ， 则 让 (，) 也 是 。 此 外 ， 广 (，) 将 继承 核 函 数 
K(。) 的 连续 性 和 可 微 性 。 例 如 ， 如 果 K(。) 是 高 斯 函数 ， 则 5(。) 将 是 光滑 的 且 具 有 所 
有 的 导数 。 

核 估 计 : h=1 


图 8-3 各 种 箱 长 度 的 核 佑 计 


一 个 问题 是 窗口 宽度 在 整个 输入 空间 上 是 固定 的 。 已 经 提出 了 各 种 自 适 应 方法 ,将 
a YE x 周围 密度 的 函数 。 


8.2.3 k 最 近邻 估计 


估计 的 最 近邻 方法 调整 光滑 量 使 之 适应 数据 的 局 部 密度 。 光 滑 度 由 所 考虑 的 近邻 数 
控制 。 近 邻 数 有 远 小 于 样本 大 小 N。 定 义 a Mb 之 间 的 距离 ， 例 如 定义 为 la 一 5|， 并 且 对 
每 个 zz， 定义 

ay Gr) = daka) & g dy) 
为 从 ac BI APE AS P iS ex dixe Se AE A PBS: di (Cz) 是 工 到 最 近 样 本 的 距离 ，d: Cao Æ x sl 
次 近 样本 的 距离 ， 以 此 类 推 。 如 果 zx' 是 数据 点 ， 则 定义 di(z) 二 min, |e >r |, JF AMR: 
是 最 近 样 本 的 上 标 ， 即 c=argmin,|2—2z'|, M dy (x) 二 minyz;|zx 一 x’|， 以 此 类 推 。 
k mm if 46 (k-nearest neighbor, &b-nn)A HE fh iT y 


PCr) = (8-8) 


k 
2Nd,(x) 

这 就 像 Ah — 2d, GO B RM. 不同 之 处 是 不 是 固定 hh 并 检查 多 少 样本 落 入 箱 中 ， 而 
是 固定 落 入 箱 中 的 观测 数 & 并 计算 箱 的 大 小 。 密 度 高 的 地 方 箱 较 小 ， 而 密度 低 的 地 方 箱 较 
大 (参见 图 8-4) 。 
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k—nnfhit: k-5 
0.4 估计 
0.3 
0.2 
0.1 
0 
0 l 2. 3 4 5 6 7 8 
k=3 
1 
0.5 
0 
0 l 2 3 4 5 6 7 8 
k=1 
] 
0 
0 l 2 3 4 5 6 7 8 


图 8-4 各 种 & 值 的 & 最 近邻 估计 


k-nn 估计 不 是 连续 的 。 它 的 导数 在 所 有 的 广 (z5 十 z6to ) 上 不 具有 连续 性 ， 其 中 a? 


是 样本 的 顺序 统计 量 。A-nn 不 是 概率 密度 困 数 ， 因 为 它 的 积分 为 cc ， 而 不 是 1。 
为 了 得 到 更 光滑 的 估计 ， 可 以 使 用 其 影响 随 距 离 增加 而 减 小 的 核 函 数 


1 < 
pod) = unu a" a5 





=) (8-9) 
这 就 像 具 有 自 适应 光滑 参数 有 = 二 di; (x) 的 核 估 计 。 通 常 ，K(。) 取 高 斯 核 。 
8.3 ”推广 到 多 变 元 数据 
给 定 d 维 观测 的 样本 X= 二 (x'} 必 1， 多 元 核 密 度 估 计 为 
| I ~ 一 E 
BO) = xpi UK ( x ) (8-10) 
满足 必要 条 件 
| ,KGWdx =1 
一 个 显然 的 候选 是 多 元 高 斯 核 : 
1 \4 ul? 
K (u) = (Fe) exp[— E] (8-11) 


然而 ， 由 于 维 灾难 (curse of dimensionality)， 在 高 维 空间 使 用 非 参 数 佑 计时 需要 小 
心 。 令 x 是 8 维 的， 使 用 每 维 10 个 箱 的 直方 图 ， 则 有 10 个 箱 。 除 非 有 大 量 数据 ， 和 否则 大 
部 分 箱 为 空 ， 并 且 那 里 的 佑 计 为 0。 在 高 维 空间 ,“ 近 邻 ” 概 念 也 变 得 模糊 不 清 ， 因 此 在 选 
择 有 时 需要 小 心 。 

例如 ， 式 (8-11) 中 的 欧 几 里 得 范 数 的 使 用 意味 着 核 在 所 有 维 上 都 具有 相等 的 尺度 。 如 
宁 输 入 具有 不 同 的 尺度 ， 则 应 当 将 它们 规范 化 ， 使 其 具有 相同 的 方差 。 这 还 没有 考虑 相关 
性 ， 并 且 当 核 函 数 与 基础 分 布 具 有 相同 形式 时 ， 将 获得 更 好 的 结果 
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= l mdt s p 
K (u) = (25) grr] z“ S u | (8-12) 
其 中 S 是 样本 协 方差 矩阵 。 这 对 应 于 使 用 马 氏 距离 而 不 是 欧 氏 距离 。 


8.4 非 参 数 分 类 


当 用 于 分 类 时 ， 使 用 非 参 数 方法 估计 类 条 件 密度 p(x|c;)。 类 条 件 密度 的 核 估计 由 下 
式 给 出 





- | ~ 2 — 2 \ t 
Berle) = ws UK| h Jr (8-13) 


其 中 ， 如 果 x'EC;， 则 i 为 1， 和 否则 7xi 为 0。N; 是 属于 ci 的 标记 实例 数 , N; 一 ri. JS 
密度 的 MLE 是 B(ci)=Ni/N。 于 是 ， 判 别 式 可 以 表示 为 
gi(x) =p(x|c)) PG) = wa K (25 y (8-14) 
并 且 x 被 指派 到 判别 式 取 最 大 值 的 类 。 公 共 因 子 1/CNA“ ) 可 以 忽略 。 这 样 ， 每 个 训练 实例 
都 为 它 的 类 投票 ， 而 对 其 他 类 没有 影响 。 投 票 的 权重 由 核 函 数 K(。) 给 定 ， 通 常 赋予 更 近 
的 实例 更 高 的 权重 。 
对 于 A-nn 佑 计 的 特殊 情况 ， 有 


$oxlco = (8-15) 


o ki 
N ;V* (x) 
Ep bd R PES PRC ESB, m VO UE x BAH r= | x—xco dL d- 
超 球 的 体积 ， 这 里 x EE x 的 来 自 所 有 类 的 近邻 中 ) 第 & 个 距离 x 最 近 的 观测 : V, r^ 
Cas Cate d 维 单位 球 的 体积 。 例 如 ,c= 二 2，c2 — 
m. C3 二 4x/3， 等 等 。 于 是 
Piele = Pale? Pen = z (8-16) 

k-nn 4r X iX (k-nn classifier) f fj A 38 YR Fl Hi 
和 的 & 个 最 近邻 中 具有 最 多 实例 的 类 。 所 有 的 近 
邻 都 有 相同 的 投票 权 ， 并 且 选 取 & 个 近邻 中 具有 
最 多 投票 者 的 类 。 平局 随意 打破 或 用 加 权 投 票 。 
通常 ，& 取 奇 数 ， 以 减少 平局 : 难以 区 分 的 情况 
一 般 出 现在 两 个 相 邻 的 类 之 间 。A-nn 的 一 种 特殊 
情况 是 最 近邻 分 类 (nearest neighbor classifier)， 图 8-5 虚线 是 Voronoi Al, mi 3c ZX Æ 26 Fi 
其 中 ==1， 并且 输入 被 指派 到 最 近 的 模式 所 在 的 ELI bh 
A. 这 将 空间 划分 成 Voronoi E 9 (Voronoi tesse- s DTR n i 
lation) JE 3X (AMEI 8-5). 


8.5 精简 的 最 近邻 
非 参 数 方法 的 时 间 和 空间 复杂 度 正比 于 训练 集 的 大 小 。 已 经 提出 了 一 些 精 简 方 法 ， 以 





© Voronoi tesselation 又 称 为 Voronoi diagram， 是 Georgy Voronoi 提出 的 。 它 是 由 一 组 由 连接 两 个 相 邻 点 线段 
的 垂直 平分 线 组 成 的 多 边 形 组 成 。 译 者 注 
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减少 存放 的 实例 数 而 不 降低 性 能 。 其 基本 思想 是 选择 X 的 最 小 子 集 z 使 得 用 z 替 代 X 时 ， 误 
差 不 增 加 (Dasarathy 1991), 

最 著名 和 最 早 的 方法 是 精简 的 最 近 领 (condensed nearest neighbor)， 它 使 用 1-nn 作为 
分 类 的 非 参 数 估 计 (Hart 1968) 。1-nn 以 分 段 线 性 的 方式 近似 判别 式 ， 并 且 只 需要 保存 定 
义 判 别 式 的 实例 。 类 区 域内 部 的 实例 不 必 作 为 它 的 同一 类 的 最 近邻 存放 ， 并 且 它 的 缺失 不 
会 导致 (训练 集 上 的 ) 任 何 错误 (参见 图 8-5)。 这 样 的 子 集 称 作 相 容 子 集 ， 并 且 我 们 希望 找 
出 最 小 的 相 容 子 集 。 

Hart 提出 了 一 种 找 出 z 的 贪心 算法 (参见 "um 
图 8-6) 。 该 算法 从 空 集 z 开 始 ， 以 随机 次 序 逐 个 | Repeat 
扫描 X 中 的 实例 ， 并 检查 它们 是 否 能 够 被 1-nn 用 For 所 有 的 xE %( 以 随机 次 序 ) 


已 经 在 z 中 的 实例 正确 地 分 类 。 如 果 一 个 实例 被 fb x € Z 使 得 | x—x" | =ming ez | x—x | 
误 分 类 ， 则 将 它 添加 到 z 中 ; 如 果 它 被 正确 分 类 ， s class( x) x5 class x ) 将 x 添加 到 之 中 
则 z 不 变 。 应 当 扫 描 数据 集 多 遍 ， 直 到 没有 实例 | DotlLZ 不 改变 


再 添加 到 Zz 中 。 该 算法 进行 局 部 搜索 ， 并且 依赖 图 8-6 ”压缩 的 最 近邻 算法 
于 看 到 训练 实例 的 次 序 ， 可 能 找 出 不 同 的 子 集 ， 
每 个 子 集 在 验证 数据 上 具有 不 同 的 准确 率 。 因 此 ， 不 能 保证 找到 最 小 的 相 容 子 集 。 找 出 最 小 
相 容 子 集 是 NP 完全 问题 (Wilfong 1992), 

精简 的 最 近邻 是 一 种 贪心 算法 ， 旨 在 最 小 化 训练 误差 和 用 存放 的 子 集 规模 度量 的 复杂 
度 。 可 以 写 一 个 增 广 误差 图 数 

E'(z|x) = E(x|z) +alz! (8-17) 

其 中 E(x |Z) 是 存放 Z 在 X 上 的 误差 。|Z | 是 Zz 的 基数 ， 而 第 二 项 是 对 复杂 度 的 惩罚 。 与 所 
有 的 正则 化 方案 一 样 ，4 体现 误差 与 复杂 度 之 间 的 折 中 ， 使 得 对 于 较 小 的 和 ， 误 差 变 得 更 
EH, JEHL BS E ) 增 大 ， 对 复杂 模型 的 惩罚 更 大 。 尽 管 精 简 的 最 近邻 是 一 种 最 小 化 
式 (8-17) 的 方法 ， 但 是 还 可 以 设计 优化 它 的 其 他 算法 。 


8.6 基于 距离 的 分 类 


k 最 近邻 分 类 器 将 实例 指派 到 被 最 多 近邻 代表 的 类 。 它 基于 这 样 的 想法 : 实例 越 类 
似 ， 它 们 越 可 能 属于 同一 类 。 只 要 有 一 个 合理 的 相似 性 或 距离 度量 ， 就 可 以 对 分 类 使 用 同 
样 的 方法 (Chen 等 2009)。 

大 多 数 分 类 算法 可 以 改写 为 基于 距离 的 分 类 。 例 如 ， 在 5.5 节 中 ， 我 们 看 到 了 关于 高 
斯 类 的 参数 方法 ， 并 且 在 那里 我 们 谈 到 了 最 近 均 值 分 类 器 (nearest mean classifier)， 我 们 
选择 Cj， 如 采 

D(x,m;) = min Dx»m,) (8-18) 
在 高 斯 超 球 的 情况 下 ， 维 是 独立 的 且 都 具有 相同 的 尺度 ， 距 离 度量 是 欧 氏 距离 : 
Dx,m;) = ||x—m,| 
否则 它 是 马 氏 距离 : 
D(x,m;) = (x—m;)'S;!(x—m;) 
其 中 $S 是 Ci; 的 协 方差 矩阵 。 

在 半 参 数 方 法 中 ， 每 一 个 类 都 表示 为 高 斯 混合 。 可 以 粗略 地 说 ， 我 们 选择 c;， 如 果 在 

所 有 类 的 所 有 簇 中 心中 ， 属 于 Cc; 的 簇 中 心 是 最 近 的 : 
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min Dx, ma) = min min D(xsmy) (8-19) 
其 中 是 cj; 的 簇 数 ， 而 my ac WRI 的 中 心 。 所 使 用 的 距离 是 欧 氏 距离 还 是 马 氏 距离 仍 
然 是 依赖 于 簇 的 形状 。 

非 参 数 方 法 可 以 更 灵活 。 不 是 每 类 或 每 簇 一 个 距离 度量 ， 而 是 对 于 每 一 个 邻 域 ， 即 对 
输入 空间 中 的 每 个 小 区 域 ， 都 可 以 有 一 个 不 同 的 距离 度量 。 换 句 话 说 ， 可 以 定义 局 部 自 适 
应 距离 函数 (locally adaptive distance function) 用 于 分 类 ， 例如， 使 用 k-nn 分 类 (Hastie 和 
Tibshirani 1996; Domeniconi, Peng 和 Gunopulos 2002; Ramanan 和 Baker 2011), 

3B 8 "f 5] (distance learning) 的 思想 是 参数 化 D(x，x' 10)， 以 监督 方式 从 标记 的 样本 
学 习 9， 然 后 将 它 与 &-nn 一 起 使 用 (Bellet，Habrard 和 Sebban 2013)。 最 和 常见 的 方法 是 使 
用 马 氏 距离 : 

Dp (x,x'|M) = (x— x 2! Méx — x) (8-20) 
其 中 参数 是 正定 矩阵 M。 一 个 例子 是 大 边缘 最 近邻 (large margin nearest neighbor) # 1X 
(Weinberger 和 Saul 2009), Citit M， 使 得 训练 集中 的 所 有 实例 到 具有 相同 标号 的 近邻 
的 距离 总 是 小 于 到 具有 不 同 的 标号 的 近邻 的 距离 。 我 们 将 在 13.13 节 详 细 讨 论 这 个 算法 。 

当 输 入 维度 很 高 时 ， 为 了 避免 过 拟 合 ， 一 种 方法 是 在 M 上 添加 稀 玖 约束 。 男 一 种 方 

法 是 使 用 低 秩 近似 ， 把 M 分 解 成 芝 " 工 ， 而 匡 是 &Xz& 和 矩阵 ， 其 中 &<d。 在 这 种 情况 下 : 
D(x,x'|M) —(x— x 0! Mix — x) = (x— x) TL L(x — x) 

—LG — w= 2) = Gr = 5 (Lr = BD 

=(z — z')" (z — z') = |[z—2z' ||? (8-21) 
其 中 z= 二 Lx 是 x Wk 维 投影 ， 学 习 工 而 不 是 M。 我 们 看 到 ， 原始 的 4 维 x 空间 中 的 马 氏 
距离 相当 于 新 的 & 维 空间 中 的 (平方 ) 欧 氏 距 离 。 这 意味 着 距离 估计 、 维 度 归 约 和 特征 提取 
三 者 之 间 的 联系 : 理想 的 距离 度量 是 定义 在 新 空间 中 的 欧 氏 距离 ， 新 空间 的 (最 少 的 ) 维 是 
以 尽 可 能 最 好 的 方式 从 原始 输入 提取 的 ， 如 图 o 
图 8-7 BRAN + 

对 于 离散 数据 ， 可 以 使 用 统计 非 匹 配属 性 
数 的 汉 明 距离 (Hamming distance) ; 


d 
Hix) = » 1 atk — (B-22) 
j=l 


其 中 
| 如 果 &a 为 真 
0 否则 
这 个 框架 也 可 以 用 于 依赖 于 应 用 的 相似 性 
或 距离 度量 。 对 于 视频 中 的 图 像 匹 配 、 生 物 信 图 87 马 氏 距离 和 欧 氏 距离 的 & 最 近邻 分 类 


lay = | 





息 学 中 的 序列 比 对 的 得 分 ， 以 及 自然 语言 处 理 eec eios ee 
中 的 文档 相似 性 度量 ， 可 以 有 专门 的 相似 度 或 欧 氏 距离 相等 的 点 定义 一 个 圆 ， xm 
距离 得 分 。 这 些 都 可 以 使 用 ， 而 不 必 明 确 地 把 导致 误 分 类 。 我 们 看 到 ， 存 在 可 以 通 
这 些 实体 表示 成 向 量 ， 并 使 用 诸如 欧 氏 距离 这 te ee qe 
` we x pty Xi essai 员 | ， o 
样 的 通用 距离 。 在 第 13 章 ， 我 们 将 讨论 具有 相 们 还 看 到 ， 如 果 数 据 投影 到 工 显 示 的 
似 作 用 的 核 函数 。 方向 ， 则 可 以 在 简化 的 一 维 空间 正确 


只 要 有 两 个 实例 之 间 的 相似 性 得 分 函数 地 分 类 
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S(x, x), JP UEH x 的 基于 相似 度 的 表示 (similarity-based representation) x’ 定义 为 
所 有 训练 实例 的 x(t 二 1，…，NN) 得 分 的 N 维 向 量 : 
x = KETAST Ye ,sCr x") J* 
这 可 以 作为 被 任意 学 习 器 处 理 的 向 量 (Pekalska 和 Duin 2002) 。 在 核 机 器 中 ， 我 们 称 
它 为 经 验 核 映射 (13.7 WW). 


8.7 离 群 点 检测 


离 群 点 (outlier) 、 新 奇 (novelty) 或 异常 (anomaly) 是 一 个 实例 ， 它 与 样本 中 的 其 他 
实例 非常 不 同 。 离 群 点 可 能 表明 系统 的 异常 行为 。 例 如 ， 在 信用 卡 交 易 数 据 集 中 ， 它 
可 能 预示 欺诈 ; 在 图 像 中 ， 离 群 点 可 能 指示 异常 ， 例 如 肿瘤 ; 在 网 络 流 量 数据 集中 ， 
离 群 点 可 能 是 人 侵 企 图 ; 在 医疗 保健 中 ， 离 群 点 暗示 显著 偏离 患者 的 正常 行为 。 离 群 
点 也 可 以 是 记录 错误 (例如 ， 由 于 有 故障 的 传感器 ) ， 应 该 检测 和 丢弃 ， 以 便 得 到 可 靠 
的 统计 数据 。 

离 群 点 检测 (outlier detection) 一 般 不 设计 成 监督 的 、 把 典型 实例 和 离 群 点 分 开 的 两 类 
分 类 问题 ， 因 为 通常 只 有 很 少 的 实例 被 标记 为 离 群 点 ， 并 且 它 们 并 不 拟 合 一 个 可 以 很 容易 
被 一 个 两 类 分 类 器 捕获 的 相 容 模式 。 相 反 ， 被 建 模 的 是 典型 实例 。 有 时 这 称 为 一 类 分 类 
(one-class classification) 。 一 且 我 们 对 典型 实例 建 模 ， 则 不 拟 合 该 模型 的 任何 实例 (这 可 能 
以 多 种 不 同 的 方式 出 现 ) 都 是 离 群 点 。 男 一 个 通常 出 现 的 问题 是 ， 用 来 训练 离 群 点 检测 器 
的 数据 是 未 标记 的 ， 并 且 可 能 包含 离 群 点 和 典型 实例 。 

离 群 点 检测 基本 上 意味 着 发 现 什么 不 正常 地 发 生 。 也 就 是 说 ， 它 是 密度 估计 ， 随 
后 是 检查 估计 密度 下 具有 太 小 概率 的 实例 。 与 往常 一 样 ， 拟 合 模型 可 以 是 参数 的 、 半 
参数 的 或 非 参 数 的 。 在 参数 的 情况 下 (5.4 节 )， 例 如 ， 我 们 可 以 用 高 斯 分 布 拟 合 整个 
数据 ， 并 且 任 何 具 有 低 概 率 的 实例 ， 或 等 价 地 ， 到 均值 的 马 氏 距离 很 大 的 实例 ， 都 是 
一 个 离 群 点 的 候选 。 在 半 参 数 的 情况 下 (7. 2 节 )， 我 们 拟 合 , 例如， 混合 高 斯 分 布 ， 
并 检查 是 否 有 小 概率 的 实例 ， 这 将 是 一 个 远离 最 近 的 聚 类 中 心 的 实例 或 自身 形成 一 个 
foe HY) SE Bil . 

但 是 ， 当 用 来 拟 合 模型 的 数据 本 身 包含 离 群 点 时 ， 使 用 非 参数 密度 估计 更 有 意义 ， 因 
为 模型 的 参数 越 多 ， 它 对 离 群 点 的 出 现 就 越 不 鲁 棒 。 例 如 ， 一 个 离 群 点 就 可 能 严重 损坏 高 
斯 分 布 的 均值 和 协 方差 估计 。 

在 非 参 数 密度 估计 中 ， 正 如 我 们 在 前 面 所 讨论 的 ， 在 附近 有 许多 训练 实例 的 地 方 ， 估 
计 的 概率 是 很 高 的 ， 并 且 估 计 的 概率 随 着 邻 域 变 得 更 稀 玖 而 降低 。 一 个 例子 是 局 部 离 群 点 
因子 (local outlier factor)， 它 将 实例 的 邻 域 的 密度 与 实例 的 近邻 的 邻 域 的 平均 密度 进行 比 
较 (Breunig 等 2000) 。 定 义 d, OAL x 与 它 的 第 & 个 最 近邻 之 间 的 距离 。 定 义 N(x) 为 
x 的 邻 域 中 的 训练 实例 的 集合 ， 例 如 它 的 & 个 最 近邻。 对 于 sE N(x)， 考 虑 di(s)。 将 
d, GO 5E ix FER s 的 di(s) 的 平均 值 进行 比较 : 

d, (x) 
VE ST utor Lario] 


sE W(x) 


如 果 LOF(x) 接 近 于 1. Wx 不 是 离 群 点 ; 随 着 LOFGOAEX, x 是 离 群 点 的 概率 提高 
(参见 图 8-8). 


(8-23) 
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200 
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a) “x” 的 LOF 接 近 1， 它 不 是 离 群 点 b) “x” 的 LOF 远 大 于 1， 它 很 可 能 是 离 群 点 


图 8-8 ”训练 实例 用 “十 ”显示 ,“X” 是 询问 ， 而 中 心 在 一 个 实例 上 
的 圆 的 半径 等 于 该 实例 到 它 的 第 三 个 最 近邻 的 距离 


8.8 非 参 数 回 归 : 光滑 模型 

AU, REIRES (r, n), HH rer, BE 

r“ = g(x') +e 

在 参数 回归 中 ， 我 们 假定 某 次 多 项 式 ， 并 计算 它 的 系数 ， 最 小 化 训练 集 上 误差 的 平方 
和 。 当 不 能 假定 这 种 多 项 式 时 ， 使 用 非 参 数 回归 ， 我 们 只 假定 相近 的 xz 具有 相近 的 g(x) 值 。 
与 非 参数 密度 估计 一 样 ， 给 定 xz， 我 们 的 方法 是 找 出 x 的 邻 域 ， 并 求 邻 域 中 -的 平均 值 ， 计 
算 &(z)。 非 参数 回归 估计 子 又 称 为 光滑 子 (smoother) ， 而 该 估计 称 为 光滑 (Hairdle 1990), 。 类 
似 于 密度 估计 ， 存 在 各 种 定义 邻 域 和 在 邻 域 中 取 平 均值 的 方法 。 我 们 对 一 元 变量 z 讨论 这 些 
方法 。 与 密度 估计 一 样 ， 使 用 多 元 核 函 数 ， 可 以 用 直 截 的 方式 把 它们 推广 到 多 元 情况 。 


8.8.1 移动 均值 光滑 


如 果 像 在 直方 图 中 那样 ， 定 义 一 个 原点 和 箱 宽 度 并 在 箱 中 求 r 的 平均 值 ， 则 得 到 回归 
图 (regressogram)( 人 参见 图 8-9) 


N 
EN 
êl) = 二 一 一 (8-24) 


其 中 

1 如果 zx' 与 在 同一 个 箱 中 

0 否则 

由 于 需要 固定 原点 ， 所 以 箱 边 界 上 的 不 连续 是 令 人 烦恼 的 。 与 质朴 估计 一 样 ， 在 移动 


均值 光滑 (running mean smoother) 中 ， 在 工 周 围 定 义 一 个 对 称 的 箱 并 在 那里 取 平 均值 ( 参 
见 图 8-10) 。 


bCr,x') — | 





(8-25) 
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回归 图 光滑 : h=6 





0 I 2 3 4 5 6 7 8 
图 8-9 ”各 种 箱 长 度 的 回归 图 。“ X ”表示 数 据点 


其 中 


1 如 果 |u| 二 1 
0 否则 
这 种 方法 在 平滑 分 段 数 据 ( 例 如 ， 时 间 序 列 ) 方 面 特别 流行 。 在 有 噪声 的 应 用 中 ， 可 以 
使 用 箱 中 x 的 中 位 数 ， 而 不 是 它们 的 均值 。 


移动 均值 光滑 : h=6 


w(u) = 





0 l 2 3 4 5 6 7 8 
图 8-10 各 种 箱 长 度 的 移动 均值 光滑 


8.8.2 HR 
与 核 估 计 一 样 ， 可 以 使 用 赋予 较 远 的 点 较 小 权重 的 核 阴 数 ， 并 得 到 核 光 滑 (kernel 
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smoother) CZ W A] 8-11): 





(8-26) 








0 l 2 3 4 5 6 7 8 
图 8-11 各 种 箱 长 度 的 核 光滑 


通常 使 用 高 斯 核 K(。)。 苦 代 固 定 h， 可 以 固定 近邻 数 上 有 使 得 估计 自动 适应 工 周围 
的 密度 ， 并 得 到 k-nn 光滑 (k-nn smoother), 


移动 线 光 滑 : h=6 





0 l 2 3 E 5 6 7 8 


8-12 各 种 箱 长 度 的 移动 线 光 滑 
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8.8.3 ”移动 线 光滑 


替代 在 点 上 取 平 均值 和 提供 常量 拟 合 ， 可 以 对 泰勒 展开 式 多 考虑 一 项 并 计算 直线 拟 
合 。 在 移动 线 光滑 (running line smoother) 中 ， 可 以 使 用 邻 域 ( 被 或 & 定 义 ) 中 的 数据 点 ， 
并 拟 合 一 条 局 部 回归 线 ( 参 见 图 8-12), 

在 局 部 加 权 移 动 线 光 滑 (locally weighted running line smoother， 称 作 loess © ) 中 ， 使 
用 核 加 权 使 得 较 远 的 点 对 误差 具有 和 较 小 影响 ， 而 不 是 使 用 邻 域 的 硬 定义 。 


8.9 如 何 选择 光滑 参数 

在 非 参数 方法 中 ， 对 于 密度 估计 或 回归 ， 关 键 的 参数 是 光滑 参数 ， 如 箱 宽 度 或 核 展 宽 h, 
或 近邻 数 &。 目 标 是 得 到 的 估计 的 不 稳定 性 比 数 据点 小 。 正 如 我 们 在 前 面 已 经 讨论 的 ， 数 据 中 
易 变 性 的 一 个 根源 是 噪声 ， 其 他 根源 是 未 知 的 基础 函数 的 易 变性 。 我 们 应 当 光 滑 得 恰好 以 便 克 
服 噪 声 一 一 不 少 也 不 多 。 使 用 太 大 的 疡 或 &， 许 多 实例 都 对 点 上 的 估计 做 出 贡献 ， 并 且 我 们 也 
光滑 掉 了 源 于 函数 的 变化 (过 光滑 )。 使 用 太 小 的 产 或 &， 单 个 实例 具有 很 大 影响 ， 并 且 我 们 甚 
至 没有 光滑 掉 品 声 ( 欠 光滑 )。 换 名 话说， 较 小 的 hh 或 导致 小 偏 倚 但 大 方差 。 较 大 的 或 & 降 
低 方差 但 增加 偏 傈 。Geman，Bienenstock 和 Doursat(1992) 讨 论 了 非 参 数 估计 的 偏 倚 和 方差 。 

该 要 求 明确 地 表示 在 与 光滑 样 条 (smoothing splines) 中 所 使 用 的 一 样 在 正则 化 函数 中 


b 
^ [ot — #( 2") | +a| Le "(x2 |’ dx (8-27) 


A-MEWA WIR. La, OMAR; (。) 是 估计 函数 &。) 的 曲率 (curva- 
ture)， 它 度量 变化 。 这 样 ， 第 二 项 惩罚 快速 变化 的 估计 。X 权衡 变化 和 误差 。 例 如 ， 使 用 
大 的 和 ， 得 到 更 光滑 的 估计 。 

交叉 验证 用 来 调整 h%、k& 或 和 。 在 密度 估计 中 ， 我 们 选择 最 大 化 验证 集 的 似 然 的 参数 值 。 在 
监督 环境 下 ， 在 训练 集 上 试验 一 系列 候选 (参见 图 8-13)， 选 取 最 小 化 验证 集 上 误差 的 参数 值 。 

两 类 的 核 估 计 : h=1 





0.2 















0 二 全 





2 a’ ái: 6 7 - 
图 8-13 ”对 于 两 类 问题 的 各 种 箱 长 度 的 核 估计 。 所 绘制 的 是 条 件 密度 p(x |C;)。 看 来 ， 
顶部 过 光滑 ， 而 底部 欠 光 滑 ， 但 是 究竟 哪个 最 好 还 依赖 于 验证 数据 


© loess 意 为 局 部 回归 。 一 一 译 者 注 
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8.10 ”注释 


k 最 近邻 和 基于 核 的 估计 早 在 几 十 年 前 就 已 经 提出 ， 但 是 由 于 需要 大 量 的 存储 和 计 
算 ， 该 方法 直到 最 近 才 流行 (Aha，Kibler 和 Albert 1991)。 随 着 并 行 处 理 的 发 展 ， 存 储 和 
计算 的 价格 逐渐 降低 ， 这 些 方法 近来 得 到 了 更 加 广泛 的 使 用 。 非 参数 估计 方面 的 教科 书 是 
Silverman 1986 和 Scott 1992, Dasarathy 1991 收集 了 许多 关于 k-nn 和 编辑 /精简 规则 的 文 
章 。Aha 1997 是 另 一 个 汇集 。 

非 参数 方法 非常 容易 在 单 指令 多 数据 (SIMD) 机 器 上 并 行 运行 。 每 个 处 理 器 在 其 局 部 
存储 器 中 存放 一 个 训练 实例 ， 并 且 并 行 地 对 该 实例 计算 核 明 数值 (Stanfill 和 Waltz 1986). 
乘 以 核 函 数 可 以 看 作 卷 积 ， 并 且 可 以 使 用 傅立叶 变换 更 有 效 地 计算 估计 (Silverman 1986), 
业已 证 明 样 条 光滑 等 价 于 核 光滑 。 

在 人 工 智 能 中 ， 非 参数 方法 称 作 基于 案例 的 推理 (case-based reasoning)。 通 过 对 已 知 
的 类 似 的 旧 “ 案 例 ” 插 值 找到 输出 。 这 也 允许 知识 提取 给 定 的 输出 可 以 用 列举 这 些 类 似 的 
旧 案 例证 明 其 合理 性 

由 于 其 简单 性 ，k-nn 是 最 广泛 使 用 的 非 参 数 分 类 方法 ， 并 且 在 各 种 实际 应 用 中 相当 成 
功 。 一 个 很 好 的 性 质 是 : 即便 只 有 很 少 的 被 标记 的 实例 它 也 可 以 使 用 ; 例如 ， 在 法 庭 应 用 
中 ， 对 于 每 个 人 ， 可 能 只 有 一 张 面 部 图 像 。 

206 业已 证 明 (Cover 和 Hart 1967; Duda, Hart 和 Stork 2001) 在 大 样本 中 ， 当 N->co 
时 ， 最 近邻 CR&=1) 的 风险 不 超过 贝 叶 斯 风险 (我 们 能 够 得 到 的 最 好 结果 ) 的 两 倍 ， 并 且 从 
这 方面 来 讲 ， 可 以 说 “在 被 分 类 的 无 限 样本 集中 ， 一 半 的 可 用 信息 都 包含 在 最 近邻 中 ” 
(Cover 和 Hart 1967，21) 。 对 于 Ann， 业 已 证 明 ， 随 着 & 趋 向 于 无 穷 大 ， 其 风险 通 近 贝 
叶 斯 风险 。 

非 参数 估计 最 重要 的 因素 是 所 使 用 的 距离 度量 。 对 于 离散 属性 ， 我 们 可 以 简单 地 使 用 
累计 非 匹配 的 属性 数 的 汉 明 距离 。 更 复杂 的 距离 函数 在 Wettschereck，Aha 和 Mohri 1997 
以 及 Webb 1999 中 讨论 。 

距离 估计 或 度量 学 习 是 一 个 热门 的 研究 领域 ,， 最近 的 全 面 综述 见 Bellet, Habrard 和 
Sebban 2013, Chen 等 (2009) 讨 论 了 可 用 于 分 类 的 不 同 的 相似 性 度量 ; Ramanan and Bak- 
er 2011 给 出 了 计算 机 视觉 中 的 局 部 距离 方法 的 例子 。 

离 群 点 /异常 /新 颖 性 检测 作为 一 个 有 趣 的 问题 出 现在 各 种 背景 下 ， 从 故障 检测 到 欺诈 
检测 ， 由 过 去 的 数据 检测 显著 的 偏离 ， 人 例如， 客户 流失 。 这 是 一 个 非常 热门 的 研究 领域 ， 
两 个 全 面 综述 包括 Hodge 和 Austin(2004); Chandola, Banerjee 和 Kumar(2009) , 

非 参 数 回归 在 Hardle 1990 中 详细 讨论 。Hastie 和 Tibshirani(1990) 讨 论 了 光滑 模型 
并 提出 了 加 法 模型 (additive model), ， 其 中 多 元 函数 被 表示 成 一 元 估计 的 和 。 局 部 加 权 回 归 
在 Atkeson, Moore 和 Schaal 1997 中 讨论 。 这 些 模 型 与 我 们 将 在 第 12 章 讨论 的 径 向 基 郴 
数 和 混合 专家 模型 很 相似 。 

在 精简 的 最 近邻 算法 中 ， 我 们 看 到 只 需要 保存 训练 实例 的 一 个 子 集 ， 这 些 实例 靠近 边 
界 ， 并 且 我 们 只 使 用 它们 就 可 以 定义 判别 式 。 这 一 思想 与 我 们 将 在 第 13 章 讨论 支持 向 量 
机 (support vector machine) 非 常 相似 。 还 讨论 了 度量 实例 之 间 相 似 性 的 各 种 核 消 数 ， 以 及 
如 何 选 择 最 好 的 核 图 数 。 把 预测 写成 训练 实例 的 影响 和 也 构成 高 斯 过 程 4《Gaussian 

process) 的 基础 (第 16 章 ) ， 核 图 数 称 作 协 方 差 函 数 (covariance function) , 
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.11 习题 
. 如何 得 到 光滑 的 直方 图 ? 
解 : 在 最 近 的 两 个 箱 中 心 之 间 的 插值 。 可 以 把 箱 中 心 看 作 xz*， 把 直方 图 值 看 作 n 
并 使 用 任意 插值 方法 ， 线 性 或 基于 核 的 。 
. 证 明 式 (8-16) 。 
ft: 给 定 


一 一 


NO 


PG = af 


8Bolco = N 


oki 
N,V*'(x)' 


ki N: 
BG, lx) = Plo? ÊD _ _N,V*(x) N 
| ? $Glc PG y ki Nj 
j N,V*(x) N 





ki kh 
k; k 





. 参数 回归 (5. 8 节 ) 假 定 高 斯 噪声 ， 因 而 对 离 群 点 不 是 鲁 棒 的 。 如 何 使 它 更 鲁 棒 ? 
. 在 层次 聚 类 之 后 如 何 检测 离 群 点 ? 
. 如 果 & 二 1， 精 简 的 最 近邻 会 怎么 样 ? 
fi. 当 &>>1 时 ， 为 了 得 到 完全 准确 没有 任何 错误 的 分 类 ， 可 能 需要 存储 一 个 实例 
多 次 ， 使 得 正确 的 类 得 到 多 数 的 选票 。 例 如 ， 如 果 &=3 而 x 有 2 个 近邻 ， 属 于 不 同 的 
类 ， 则 需要 存储 x 两 次 ， 使 得 如 果 在 检验 过 程 中 看 到 x， 则 3 个 近邻 中 的 多 数 ( 在 这 种 
情况 下 为 2) 属 于 正确 的 类 。 
. 在 精简 的 最 近邻 中 ， 先 前 添加 到 z 中 的 实例 在 之 后 的 添加 后 可 能 不 再 是 必需 的 。 如 何 找 
出 这 种 不 再 需要 的 实例 ? 
在 回归 图 中 ， 蔡 代 箱 中 取 平 均值 并 做 常量 拟 合 ， 可 以 使 用 落 入 箱 中 的 实例 并 做 线性 拟 
合 ( 参 见 图 8-14)。 写 出 代码 并 与 回归 图 做 比较 。 
4 回归 图 线 光 滑 : h=6 


Ol RC 


c» 


d 





图 8-14 对 于 各 种 箱 长 度 ， 使 用 线性 拟 合 的 回归 图 
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8. 为 8.8.3 节 讨论 的 loess 写 出 误差 函数 。 
解 : 输出 使 用 线性 模型 g(z) 王 az 十 计算 ， 其 中 在 移动 线性 光滑 ， 最 小 化 


t 


E(a,b|z.X) = Poen JE” — (az* - 5» [ 





h 
和 
$ ti lul<1 
w(u) = 
0 否则 


注意 ， 没 有 误差 函数 ， 而 是 对 于 每 个 检验 输入 zx， 有 男 一 个 仅 考虑 邻近 工 的 数据 的 
误差 图 数 ， 对 于 拟 合 该 邻 域 中 的 直线 它 是 最 小 的 。 

Loess 是 移动 线性 光滑 的 加 权 版 本 ， 其 中 核 隐 数 KC 0€ (0, DRAT wl dE 
{0, 1}; 





Elasblz,x) = DK (E)E — Car’ - 1 


9. 提出 一 个 移动 均值 估计 的 增 量 版 本 ， 与 压缩 的 最 近邻 一 样 ， 它 只 在 必要 时 存放 实例 。 
10. 将 核 光 滑 推 广 到 多 元 数据 。 
11. 在 移动 光滑 中 ， 可 以 在 检验 点 拟 合 一 个 和 常数、 一 条 线 或 一 个 高 阶 多 项 式 。 如 何在 它们 
之 间 选 择 ? 
解 : 通过 交叉 验证 。 
12. 在 移动 均值 光滑 中 ， 除 了 给 出 估计 外 ， 还 能 计算 指示 该 点 估计 附近 的 方差 (不 确定 性 ) 
的 置信 区 间 吗 ? 
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决 东 树 是 一 种 实现 分 治 策 略 的 层次 数据 结构 。 它 是 一 种 有 效 的 非 参 数学 习 方 法 ， 可 以 
用 于 分 类 和 回归 。 本 章 讨 论 由 给 定 的 标记 训练 样本 构造 决策 树 的 学 习 算 法 ， 以 及 如 何 将 决 
策 树 转换 成 容易 理解 的 简单 规则 的 方法 。 另 一 种 可 能 的 方法 是 直接 学 习 规 则 库 。 


9.1 引言 


对 于 参数 估计 ， 我 们 定义 整个 输入 空间 上 的 模型 ， 并 使 用 所 有 的 训练 数据 学 习 它 的 参 
数 。 然 后 ， 对 任意 的 检验 输入 ， 使 用 相同 的 模型 和 参数 。 对 于 非 参 数 估 计 ， 我们 把 输入 空 
间 划 分 成 被 诸如 欧 几 里 得 范 数 这 样 的 距离 度量 定义 的 局 部 区 域 ， 并 对 每 个 输入 ， 使 用 由 该 
区 域 的 训练 数据 计算 得 到 的 对 应 的 局 部 模型 。 在 第 8 章 讨论 的 基于 实例 的 模型 中 ， 给 定 一 
个 输入 ， 识 别 定 义 局 部 模型 的 局 部 数据 的 开销 很 大 ， 需 要 计算 从 给 定 的 输入 到 所 有 训练 实 
例 的 距离 ， 其 计算 复杂 度 为 O(NN)。 

决策 树 (decision tree) 是 一 种 用 于 监督 学 习 的 层次 模型 ， 由 此 局 部 区 域 通过 少数 几 步 
递归 分 裂 确 定 。 决 策 树 由 内 部 决策 节点 和 终端 树叶 组 成 (参见 图 9-1) 。 每 个 决策 节点 (deci- 
sion node)m 实现 一 个 具有 标记 分 支 的 离散 输出 的 测试 函数 f,, (x)。 给 定 一 个 输入 ， 在 每 
个 节点 应 用 一 个 测试 ， 并 根据 测试 的 输出 确定 一 个 分 支 。 这 一 过 程 从 根 节点 开始 ， 并 递归 
地 重复 ， 直 至 到 达 一 个 树叶 节点 (leaf node) 。 这 时 ， 该 树叶 中 的 值 形 成 输出 。 





图 9-1 数据 集 和 对 应 的 决策 树 。 椭 圆 形 节 点 是 决策 节点 ， 而 矩形 节点 是 树叶 节点 。 单 变量 的 决策 
节点 沿 着 一 个 轴 划 分 ， 并 且 连 续 的 划分 相互 正 交 。 第 一 次 划分 之 后 ，{*|zi<wo} 已 是 纯 的 ， 
因此 不 需要 再 划分 


决策 树 也 是 一 种 非 参数 模型 ， 因 为 我 们 并 不 对 类 密度 假定 任何 参数 形式 ， 并 且 树 结构 
也 不 是 预先 固定 的 ， 而 是 依赖 于 数据 中 问题 固有 的 复杂 性 ， 在 学 习 期 间 ， 树 生长 ， 添 加 分 
文 和 树叶 。 

每 个 f(x) 都 定义 了 一 个 d 维 输入 空间 中 的 判别 式 ， 将 空间 划分 成 较 小 的 区 域 。 在 从 
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根 节点 沿 一 条 路 径 向 下 时 ， 这 些 较 小 的 区 域 被 进一步 划分 。f,,(， ) 是 一 个 简单 函数 ， 而 作 
为 树 写 下 时 ， 复杂 的 函数 被 分 解 成 一 系列 简单 的 决策 。 不 同 的 决策 树 方法 对 fn C ) 假 设 
不 同 的 模型 ， 而 模型 类 确定 了 判别 式 的 形状 和 区 域 的 形状 。 每 个 树叶 节点 都 有 一 个 输出 标 
号 。 对 于 分 类 ， 该 标号 是 类 代码 ;而 对 于 回归 ， 它 是 一 个 数值 。 一 个 树叶 节点 定义 了 输入 
空间 的 一 个 局 部 区 域 ， 落 入 该 区 域 的 实例 具有 相同 的 标号 (分 类 ) 或 类 似 的 数值 输出 ( 回 
归 )。 区 域 的 边界 被 从 树 根 到 该 树叶 的 路 径 上 的 内 部 节点 中 的 判别 式 定义 。 

决策 的 层次 安排 使 得 涵盖 输入 的 区 域 可 以 快速 确定 。 例 如 ， 如 果 决 策 是 二 元 的 ， 则 在 
最 好 情况 下 每 个 决策 去 掉 一 半 实 例 。 如 果 有 45 个 区 域 ， 则 在 最 好 情况 下 可 以 通过 log, d 次 
决策 找到 正确 的 区 域 。 决 策 树 的 另 一 个 优点 是 可 解释 性 。 正 如 稍 后 我 们 将 看 到 的 ， 可 以 把 
决策 树 转换 成 一 组 容易 理解 的 IF-THEN 规则 。 因 此 ， 决 策 树 非常 流行 ， 并 且 常 常 比 更 准 
确 但 不 太 好 解释 的 方法 更 可 取 。 

我 们 从 一 个 决策 节点 只 使 用 一 个 输入 变量 的 单 变量 树 开 始 ， 考 察 如 何 为 分 类 和 回归 构 
造 这 样 的 树 。 稍 后 ， 我 们 将 这 种 方法 推广 到 一 个 内 部 节点 可 以 使 用 所 有 输入 的 多 变量 树 。 


92 单 变量 树 


在 单 变量 树 (univariate tree) 中 ， 每 个 内 部 节点 中 的 测试 只 使 用 一 个 输入 维 。 如 果 所 使 
用 的 输入 维 xz; 是 离散 的 ， 取 nn 个 可 能 的 值 之 一 ， 则 该 决策 节点 检查 zj; 的 值 ， 并 取 相 应 的 
分 支 ， 实 现 一 个 对 路 划分 。 例 如 ， 如 果 属 性 是 颜色 ， 具 有 可 能 的 值 { 红 ， 蓝 ， 绿 }， 则 该 属 
性 上 的 节点 具有 3 个 分 支 ， 每 个 对 应 于 该 属性 的 3 个 可 能 值 中 的 一 个 。 
决策 节点 具有 离散 分 支 ， 数 值 输入 应 当 离 散 化 。 如 果 x 是 数值 的 (有 序 的 )， 则 测试 是 
比较 

fal X):x; ZB Wo (9-1) 
其 中 wno dei SEW A. BR AMA SAAT: Lu (xx; wo} MR, = 
(zzi 委 wwo)}。 这 称 作 二 元 划分 (binary split)。 从 根 到 一 个 树叶 的 路 径 上 的 连续 决策 节点 
使 用 其 他 属性 进一步 把 它们 一 分 为 二 ， 产 生 相 互 正 交 的 划分 。 树 叶 节 点 定义 输入 空间 中 的 
超 和 矩形 (参见 图 9-1), 

树 归纳 是 构造 给 定 训练 样本 的 树 。 对 于 给 定 的 训练 集 ， 存 在 许多 对 它 进行 无 错 编 码 的 
树 ， 而 为 了 简单 起 见 ， 我 们 感 兴趣 的 是 寻找 其 中 的 最 小 树 ， 这 里 树 的 大 小 用 树 中 的 节点 数 
和 决策 节点 的 复杂 性 度量 。 寻 找 最 小 树 是 NP 完全 问题 (Quinlan 1986)， 因 而 我 们 必须 使 
用 基于 启发 式 的 局 部 搜索 过 程 ， 在 合理 的 时 间 内 得 到 合理 的 树 。 

树 学 习 算法 是 贪心 算法 ， 从 包含 全 部 训练 数据 的 根 开 始 ， 每 一 步 都 选择 最 佳 划分 。 依 
赖 于 所 选取 的 属性 是 数值 属性 还 是 离散 属性 ， 每 次 将 数据 划分 成 两 个 或 n 个 子 集 。 然 后 使 
用 对 应 的 子 集 递 归 地 进行 划分 ， 直 到 不 再 需要 划分 。 此 时 ， 创 建 一 个 树叶 节点 并 标记 它 。 


9.2.1 分 类 树 


在 用 于 分 类 的 决策 树 ， 即 分 类 树 (classification tree) 中， 划分 的 优 劣 用 不 纯 性 度量 
(impurity measure) 定 量 分 析 。 一 个 划分 是 纯 的 ， 如 果 对 于 所 有 分 支 ， 划 分 后 选择 相同 分 
支 的 所 有 实例 都 属于 相同 的 类 。 对 于 节点 m, SN, ARK Rm. 的 训练 实例 数 。 对 于 根 


节点 ，N， 为 N。N 个 实例 中 入 个 属于 Ci 类 ， 而 2,N. = Nn o WA—^ 3c] 3 7 es 
m， 则 它 属 于 c; 类 的 概率 估计 为 
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PC xim) = ph = we (9-2) 
节点 m 是 纯 的 ， 如 果 对 于 所 有 的 i ph 为 0 或 1。 当 到 达 节 点 m 的 所 有 实例 都 不 属于 

C; 类 时 ，pi 为 0; 而 当 到 达 节 点 m 的 l 
所 有 实例 都 属于 Cc; 类 时 ，p 为 1。 如 


^ 09 

果 划 分 是 纯 的 ， 则 不 需要 进一步 划分 ， 己 og 
. oD 

并 可 以 添加 一 个 树叶 节点 , 用 ps 为 1 £y 

的 类 标记 。 一 种 度量 不 纯 性 的 可 能 郴 E Dg 

BE Mi (entropy) 函数 (Quinlan 1986) & »í 

Z MI! 2%, a 

(参见 图 9-2): . 3 ‘nd 
| 

dm 一 一 2) Pn log; P. (9-3) 3 0.3 

Six bie dix a E 02 

Hp 0logoco, ZEAE, How E 

1 


一 个 实例 的 类 代码 进行 编码 所 需要 的 
最 少 位 数 。 对 于 两 类 问题 ， 如 果 p =l % ^01 02 03 04 05 06 07 08 09 1 
而 刀 =0， 则 所 有 的 实例 都 属于 Ci 类， i 
并 且 我 们 什么 也 不 需要 发 送 ， 粹 为 0 mr DN 
WE p =p =0.5, Wider] SE A3 LMM AS. HAMA 1. XAA 
情况 之 间 ， 我 们 可 以 设计 编码 ， 更 可 能 的 类 用 较 短 的 编码 ， 更 不 可 能 的 类 用 较 长 的 编码 ， 
每 个 信息 使 用 不 足 1 位 。 当 存在 K> 个 类 时 ， 相 同 的 讨论 成 立 ， 并 且 当 p' 二 1/K 时 最 大 
RAH log:K. 
但 是 ， 焙 并 非 唯一 可 能 的 度量 。 对 于 两 类 问题 ， 其 中 p =p, p—1—p. RA Cp. 1—p) 
是 非 负 函数 ， 度 量 划 分 的 不 纯度 ， 如 果 它 满足 如 下 性 质 (Devroye，Gy6r 和 Lugosi 1996) ; 
e 对 于 任意 pelo. 1], $(1/2, 1/2)>¢(p, 1— p). 
e $0, 1) —9(1, 0)=0. 
e 4 p fELO, 1/2] ERE 9Cp, 1—720J4&363E I), m p 1k[ 1/2, 1] EM gp, 1— 20 
递减 的 。 
函数 $%zb，1 一 力 ) 的 例子 包含 以 下 几 个 。 
(D WR 
(p51 = p) = plog; p — C1— $)ogl- p) (9-4) 
th (9-3) K2 个 类 的 推广 。 
(2) 基尼 指数 (Gini index) (Breiman 等 1984) 
$(p,1— p) = 25(] — p) (9-5) 
(3) 误 分 类 误差 
$9(5;l— p) = 1— max( p.l = $) (9-6) 
这 些 都 可 以 推广 到 久之 2 类 ,并且 给 定 损失 函数 ， 误 分 类 误差 可 以 推广 到 最 小 风险 
(习题 1) 。 研 究 表明 ， 这 3 个 度量 之 间 并 不 存在 显著 差别 。 
如 果 节 点 m 不 是 纯 的 ， 则 应 当 划 分 实例 来 降低 不 纯度 ， 并 且 有 多 个 属性 可 以 用 于 划 
分 。 对 于 数值 属性 ， 可 能 存在 多 个 划分 位 置 。 在 所 有 可 能 的 划分 中 ， 我 们 寻找 最 小 化 划分 
后 不 纯度 的 划分 ， 因 为 我 们 希望 产生 最 小 的 树 。 如 果 划 分 后 的 子 集 越 纯 ， 则 其 后 需要 的 划 
分 (如 果 需 要 ) 就 越 少 。 当 然 ， 这 是 局 部 最 优 ， 不 能 保证 找到 最 小 的 决策 树 。 
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设 在 节点 m. NI Nw 个 取 分 支 7 ， 这 些 是 测试 f, Coc!) RAH j HU x. SEPA n 
个 值 的 离散 属性 ， 有 7 个 输出 ; 而 对 于 数值 属性 ， 有 两 个 输出 (n 二 2)。 在 两 种 情况 下 ， 都 
满足 2 Nw = N。。Nw 个 实例 中 的 Ns 个 属于 类 C;: 2,Nw = Nu o RM, D, N” = 
Ni 

Fie, HEBR m， 测 试 返回 输出 ;. Ke AY ETT A 


^ > } Ns 
PC; |x mj) = dà = N | 





(9-7) 
而 划分 后 的 总 不 纯度 为 





n N | K 
1,—— 2, WD Py lon? (9-8) 
j=l m i=] 


对 于 数值 属性 ， 为 了 能 够 使 用 式 (9-1) 计 算 bwo RITE a MIA EY waos Æ 
NN 个 数据 点 之 间 ， 存 在 N, —1 个 可 能 的 w。。 我 们 不 需要 测试 所 有 (无 限 多 个 ) 可 能 的 点 ， 
例如 ， 我 们 只 需要 考虑 两 点 之 间 的 中 值 就 足够 了 。 还 要 注意 ， 最 佳 划 分 总 是 在 属于 不 同类 
的 两 个 相 邻 点 之 间 。 这 样 ， 我 们 检查 每 一 个 ， 并 取 最 高 纯度 作为 该 属性 的 纯度 。 对 于 离散 


属性 ， 不 需要 这 种 迭代 。 

对 于 所 有 的 离散 属性 和 数值 属性 ， 对 
于 数值 属性 的 所 有 可 能 划分 位 置 ， 我 们 计 
算 不 纯度 并 选取 具有 最 小 炉 的 划分 位 置 ( 例 
如 ， 用 式 (9-8))。 然 后 ， 对 于 所 有 的 不 纯 分 
支 ， 树 构造 递归 地 、 并 行 地 继续 进行 ， 直 
到 所 有 的 分 支 都 是 纯 的 。 这 就 是 分 类 与 回 
归 树 (Classification And Regression Tree, 
CART) 算 法 (Breiman 等 ，1984)、ID3 算法 
(Quinlan 1986) 和 它 的 扩展 C4.5 (Quinlan 
1993) 的 基本 思想 。 算 法 的 伪 代 码 在 
图 9-3 中 。 

也 可 以 说 ， 在 树 构 造 的 每 一 步 ， 我 们 
选择 导致 不 纯度 降低 最 多 的 划分 。 不 纯度 
的 降低 是 到 达 节 点 m 的 数据 的 不 纯度 
式 (9-3) 与 划分 后 到 达 其 分 支 的 数据 的 总 炉 
式 (9-8) 之 差 。 

一 个 问题 是 这 种 划分 偏 回 于 选择 具有 
许多 值 的 属性 。 当 存在 许多 值 时 ， 就 存在 
许多 分 文 ， 并 且 不 纯度 可 能 很 小 。 例 如 ， 
如 果 我 们 取 训 练 样本 的 编号 作为 一 个 属性 ， 
尽管 它 不 是 一 个 合理 的 特征 ， 但 是 不 纯度 
度量 将 会 选取 它 ， 因 为 这 样 的 话 ， 每 个 分 





GenerateTree( X) 

If NodeEntropy( X )<6;/* (9-3) 5X */ 
创建 一 个 树叶 ， 用 X 中 的 多 数 类 标记 
Return 

i*-SplitAttribute( X ) 

For xi 的 每 个 分 支 
jk tH ATK ot SX 
GenerateTree( X ; ) 


SplitAttribute( X ) 
MinEnt«-- MAX 
For 所 有 的 属性 i=1, «+, d 
If x; 2 RA n 个 值 的 离散 属性 
按照 后 将 X 划 分 成 Xi，…，X， 
e--SplitEntropyC X; >» *:, X,2/* (9-8) 式 */ 
If e MinEnt MinEnt<-e; bestf<i 
Else/* x; 是 数值 的 x/ 
For 所 有 可 能 的 划分 
在 x; EX MIM Xs Xe 
e--SplitEntropyC Xi» Xə) 
If e<MinEnt MinEnt<-e; bestf<i 


Return bestf 


图 9-3 构造 分 类 树 


支 的 不 纯度 都 为 0。 具有 许多 分 支 的 节点 是 复杂 的 ， 并 且 背 离 把 类 判别 式 划 分 成 简单 决策 
的 思想 。 业 已 提出 了 许多 方法 ， 对 这 样 的 属性 加 罚 并 权衡 不 纯度 下 降 和 分 支 因 子 这 两 个 
因素 。 
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当 存 在 噪声 时 ， 增 长 树 直 到 它 是 最 纯 的 ， 可 能 产生 一 棵 非常 大 的 、 过 拟 合 的 树 。 例 
如 ， 考 虑 这 种 情况 : 一 个 错误 标记 的 实例 混杂 在 一 组 正确 标记 的 实例 中 。 为 了 减轻 这 种 过 
拟 合 ， 当 节点 变 得 足够 纯 时 ， 树 构造 将 终止 。 即 ， 如 果 7<0 ， 则 数据 子 集 就 不 再 划分 。 这 
意味 着 不 需要 使 加 都 恰 为 0 或 1， 而 只 需要 根据 某 个 国 值 6,，pw 足 够 接近 0 或 1 就 可 以 
了 。 在 这 种 情况 下 ， 创 建 一 个 树叶 节点 ， 并 将 它 标记 为 具有 最 大 p»; 值 的 类 。 

与 非 参 数 估计 中 的 A 或 & 一 样 ，01,( 或 0,) 是 复杂 度 参数 。 当 它们 较 小 时 ,方差 大 
且 树 生长 得 较 大 ， 以 便 正确 反映 训练 集 ; 而 当 它 们 较 大 时 ， 方差 小 且 树 较 小 ， 粗 略 地 
表示 训练 集 并 且 可 能 具有 较 大 的 偶 倚 。 理 想 的 值 依赖 于 误 分 类 的 代价 以 及 存储 和 计算 
的 开销 。 

一 般 地 ， 建 议 在 树叶 节点 存放 每 个 类 的 后 验 概率 ， 而 不 是 用 具有 最 大 后 验 概率 的 类 来 
标记 树叶 。 这 些 概 率 在 其 后 的 步骤 中 可 能 是 需要 的 。 例 如 ， 在 计算 风险 时 可 能 需要 。 注 
意 ， 我 们 不 需要 存放 到 达 节 点 的 实例 或 准确 计数 ， 比 率 就 足够 了 。 


9.2.2 回归 树 


回归 树 (regression tree) 可 以 用 几乎 与 分 类 树 完 全 相同 的 方法 构造 ， 唯 一 的 不 同 是 适 
合 分 类 的 不 纯 性 度量 用 适合 回归 的 不 纯 性 度量 取代 。 对 于 节点 m, OX AXPIR A 
m 的 子 集 ， 即 它 是 xE XX 的 满足 从 树 根 到 节点 m 的 所 有 决策 节点 条 件 的 所 有 x. KM 
定义 
1 如 果 xXE Xn:x KP Rm 


bts) = E 否则 (9-9) 
在 回归 树 中 ， 划 分 的 好 坏 用 估计 值 的 均 方 误差 度量 。 令 gu gà m 中 的 估计 值 。 
Eee rato ir! — gp. M ba Ca?) (9-10) 


其 中 Nn =| Xn = X bn). 
ERAP, FRAT EA ATK A B0 SC 1 B5] BE OR i h E CSR ROKR MHIE) 

X bn Dr 

dii ulis Gat) 


于 是 ， 式 (9-10) 对 应 于 m 上 的 方差 。 如 果 在 一 个 节点 上 ， 误差 是 可 以 接受 的 ， 即 
E,, 二 9,， 则 创建 一 个 树叶 节点 ， 存 放 en fi. SH 8 章 的 回归 图 一 样 ， 这 创建 在 叶 边 界 不 
连续 的 分 段 常 量 近 似 。 

如 果 误 差 不 能 接受 ， 则 到 达 节 点 m 的 数据 进一步 划分 ， 使 得 各 分 支 的 误差 和 最 小 。 与 
分 类 一 样 ， 在 每 个 节点 ， 我 们 寻找 最 小 化 该 误差 的 属性 (和 数值 属性 的 划分 国 值 );， 然 后 递 
归 地 进行 上 述 过 程 。 


A x ux IU SE j 的 子 集 ; U X« — X。。 我 们 定义 


boe h WMR x € Xm x MAP m 并 取 分 支 ] (9-12) 
0 否则 


gw 是 节点 m 的 分 支 了 7 上 的 估计 值 。 


(9-11) 
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ba Gr 
Ew = 537027023 (9-13) 
而 划分 后 的 误差 为 o 
p= nae? » (天 一 bu) (9-14) 


对 于 任意 划分 ， 误 差 的 减少 由 式 (9-10) 和 式 (9-14) 之 差 给 出 。 我 们 寻找 这 样 的 划分 ， 
它 最 大 化 误差 的 减少 ， 或 等 价 地 ， 式 (9-14) 取 最 小 值 。 将 炉 计算 用 均 方 误差 蔡 换 ， 类 标号 
用 平均 值 蔡 换 ， 图 9-3 中 的 程序 代码 可 以 用 来 训练 回归 树 。 

A E A E 另 一 种 是 最 大 可 能 误差 

E, = d max |r" — gw [5,5 Cx) (9-15) 


使 用 它 ， 我 们 可 以 保证 任意 实例 的 误差 都 不 大 于 给 定 的 阔 值 。 
可 接受 的 误差 阔 值 是 复杂 度 参 数 。 其 值 越 小 ,产生 的 树 越 大 并 且 过 拟 合 的 风险 越 大 ， 
其 值 越 大 ， 欠 拟 合 和 过 分 光滑 的 可 能 性 越 大 (参见 图 9-4 和 图 9-5). 





图 9-4 对 于 9 的 不 同 值 ， 回 归 树 光滑 。 对 应 的 树 在 图 9-5 中 


类 似 于 非 参 数 回归 的 从 移动 均值 到 移动 直线 ,我 们 可 以 不 在 树叶 上 取 平 均值 实现 常量 
拟 合 ， 而 是 做 线性 回归 拟 合 选 定 树 叶 上 的 实例 : 
ga (X) = wx + wo (9-16) 
这 使 得 树叶 上 的 估计 依赖 于 x 并 产生 较 小 的 树 ， 但 是 这 导致 树叶 节点 上 的 额外 计算 
开销 。 
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图 9-5 对 于 4 的 不 同 值 ， 实 现 图 9-4 的 光滑 的 回归 树 


9.3 BR 


通常 ， 如 果 到 达 一 个 节点 的 训练 实例 数 小 于 训练 集 的 某 个 百分比 (例如 ，5%)， 则 无 
论 是 不 纯 还 是 误差 ,该 市 点 都 不 进一步 划分 。 其 基本 思想 是 ， 基 于 过 少 实例 的 决策 树 导致 
较 大 方差 ， 从 而 导致 较 大 的 泛 化 误差 。 在 树 完 全 构造 出 来 之 前 就 提前 停止 树 构 造 称 作 树 的 
先前 枝 (prepruning) 。 

得 到 较 小 树 的 另 一 种 可 能 做 法 是 后 剪 枝 (postpruning)， 在 实践 中 它 比 先 剪 梳 效 果 更 
好 。 前 面 我 们 看 到 树 的 生长 是 贪心 的 ， 在 每 一 步 ， 我们 做 出 一 个 决策 ( 即 产 生 一 个 决策 节 
点 ) 并 继续 进行 ， 绝 不 回溯 尝试 其 他 可 能 的 选择 。 唯 一 例外 是 后 前 校 ， 它 试图 找 出 并 前 掉 
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不 必要 的 子 树 。 

在 后 剪 枝 中 ， 我 们 让 树 完全 增长 直到 所 有 的 树叶 都 是 纯 的 且 具 有 零 训练 误差 。 然 后 ， 
我 们 找 出 导致 过 拟 合 的 子 树 并 剪 掉 它们 。 我 们 从 最 初 的 被 标记 的 数据 集中 保留 一 个 剪 枝 集 
(pruning set)， 在 训练 阶段 不 使 用 它 。 对 于 每 棵 子 树 ， 我 们 用 一 个 被 该 子 树 覆 盖 的 训练 实 
例 标记 的 树叶 节点 蔡 换 它 。 如 果 该 树叶 在 前 枝 集 上 的 性 能 不 比 该 子 树 差 ， 则 剪 掉 该 子 树 并 
保留 树叶 节点 ， 因 为 该 子 树 的 附加 复杂 性 是 不 必要 的 ; 否则 保留 子 树 。 

例如 ， 在 图 9-5 的 第 三 棵 树 中 ， 有 一 个 以 条 件 x—6.31 开始 的 子 树 。 如 果 震 换 不 会 增 
加 前 枝 集 上 的 误差 ， 则 该 子 树 可 以 用 树叶 节点 y==0.9 替换 (如 第 二 棵 树 ) 。 注 意 ， 不 要 把 
剪 枝 集 与 验证 集 混淆 ， 它 不 同 于 验证 集 。 

先前 枝 与 后 前 枝 相 比 ， 先 前 枝 较 快 ， 但 是 后 前 枝 通常 导致 更 准确 的 树 。 


9.4 由 决策 树 提 取 规 则 


决策 树 能 够 提取 特征 。 单 变量 树 只 使 用 必要 的 变量 ,， 并且 在 树 构 建 之 后 某 些 特征 可 能 
根本 没有 使 用 。 我 们 还 可 以 认为 从 全 局 上 ， 越 靠近 树 根 的 特征 越 重要 。 例 如 ， 图 9-6 中 的 
决策 树 使 用 了 变量 x 、z 和 zi ， 但 没有 使 用 zs 。 可 以 使 用 决策 树 提取 特征 : 构建 一 棵 决 
策 树 ， 并 取 该 树 使 用 的 特征 作为 另 一 种 x,: Age 
学 习 方法 的 输入 。 

决策 树 的 男 一 个 主要 优点 是 可 解释 
性 (interpretation): 决策 树 节 点 中 的 条 
件 简单 、 易 于 理解 。 从 树 根 到 树叶 的 每 
条 路 径 对 应 于 条 件 的 合 取 ， 因 为 要 到 达 
树叶 ， 所 有 这 些 条 件 都 必须 满足 。 这 些 
路 径 可 以 用 IF-THEN 规则 集 表 示 ， 称 
作 规 则 库 (rule base) 。 一 种 这 样 的 方法 


x,: Years in job 
: Gender 





| 图 9-6 一 棵 (假想 的 ) 决 策 树 。 由 根 到 树叶 的 每 条 路 径 
C4. 5 y ] 1993), 
REL, S eA ENE 都 可 以 用 一 个 合 取 规 则 表示 ， 由 该 路 径 上 决策 
例如 ， 图 9-6 的 决策 树 可 以 用 如 下 节点 定义 的 条 件 组 成 


Rl: IF (age > 38.5) AND (years-in-job > 2.5) THEN y = 0.8 
R2: IF (age > 38.5) AND (years-in-job < 2.5) THEN y = 0.6 
R3: IF (age x 38.5) AND (job-type = ‘A’) THEN y = 0.4 
R4: IF (age x 38.5) AND (job-type = ‘B’) THEN y = 0.3 
R5: IF (age < 38.5) AND (job-type = 'C) THEN y = 0.2 


这 样 的 规则 库 可 以 提取 知识 ; 它 容 易 理 解 ， 并 且 使 得 领域 专家 可 以 验证 从 数据 学 习 得 
到 的 模型 。 对 于 每 个 规则 ， 我 们 可 以 计算 被 该 规则 覆盖 的 训练 数据 所 占 的 百分比 ， 即 规则 
支持 度 (rule support)。 这 些 规则 反映 数据 集 的 主要 特性 : 它们 显示 了 重要 特征 和 划分 位 
置 。 例 如 ， 在 这 个 (假想 的 ) 例 子 中 ， 我 们 看 到 就 我 们 的 目的 (y) 而 言 ，38 岁 或 更 年 轻 的 人 
不 同 于 39 岁 或 更 年 长 的 人 。 并 且 ， 在 后 一 组 ， 工 作 类 型 区 分 他 们 ; 而 在 前 一 组 ， 做 一 项 
工作 的 年 限 是 最 好 的 区 分 特征 。 

对 于 分 类 树 ， 可 能 有 多 个 树叶 被 标记 为 相同 的 类 。 在 这 种 情况 下 ， 对 应 于 不 同 路 径 的 
多 个 合 取 表达 式 可 以 合并 成 一 个 析 取 (OR)。 类 区 域 对 应 于 多 个 小 区 域 的 并 ， 而 每 个 小 区 
域 对 应 于 一 个 树叶 定义 的 区 域 。 例 如 ， 图 9-1 的 ci 类 可 以 表示 为 : 
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IF Cx €i wy ORC Ca, > wi) AND Cee X: wy) THEN Ci 
为 了 简化 ， 可 以 修剪 规则 (pruning rule). 。 剪 掉 一 棵 子 树 对 应 于 同时 从 一 些 规 则 剪 去 
一 些 项 。 可 以 从 一 个 规则 剪 去 一 个 项 而 不 涉及 其 他 规则 。 人 例如， 在 前 面 的 规则 集中 ， 对 于 
R3， 如 果 所 有 job-type='A' 的 人 无 论 他 的 年 岭 多 大 ， 都 具有 大 致 为 0.4 的 输出 ， 则 可 以 
对 R3 ik, FB 
R5',IFGob-type = "AY THEN y = 0.4 
注意 ， 规 则 剪 校 后 可 能 不 能 再 作为 树 写 回去 。 


9.5 由 数据 学 习 规则 


正如 我 们 刚刚 看 到 的 ， 得 到 IF-THEN 规则 的 一 种 方法 是 训练 一 棵 决策 树 ， 并 把 它 转 
换 成 规则 。 男 一 种 方法 是 直接 学 习 规 则 。 规 则 归纳 (rule induction) 类 似 于 决策 树 归 纳 ， 唯 
一 的 区 别 在 于 规则 归纳 进行 深度 优先 搜索 ， 并 且 一 次 产生 一 条 路 径 ( 规 则 ); 而 决策 树 归纳 
进行 宽度 优先 搜索 ,并且 同 时 产生 所 有 路 径 。 

一 次 学 习 一 个 规则 。 每 个 规则 都 是 离散 或 数值 属性 上 的 条 件 的 合 取 (与 决策 树 一 样 )， 
并 且 这 些 条 件 一 次 添加 一 个 ， 以 优化 某 个 标准 ， 如 最 小 化 炉 。 我 们 说 规则 履 盖 (cover) 一 
个 实例 ， 如 果 该 实例 满足 规则 的 所 有 条 件 。 一 旦 规则 形成 并 被 前 校 ， 就 将 它 添加 到 规则 库 
中 ， 从 训练 集中 删除 被 该 规则 覆盖 的 所 有 训练 实例 ， 并 且 继 续 该 过 程 ， 直 到 得 到 足够 的 规 
则 。 这 称 作 顺序 履 盖 (sequential covering) 。 外 循环 一 次 将 一 个 规则 添加 到 规则 库 中 ， 而 内 
循环 一 次 将 一 个 条 件 添 加 到 当前 规则 中 。 这 些 步骤 都 是 贪心 的 ， 并 且 不 能 保证 最 优 。 为 了 
得 到 更 好 的 泛 化 ， 两 个 循环 都 有 剪 术 步 又 。 

规则 归纳 算法 的 一 个 例子 是 Ripper (Cohen 1995)， 它 基于 较 早 的 算法 Irep 
(Fürnkrantz 和 Widmer 1994)。 我 们 从 两 类 问题 开始 ， 并 使 用 术语 正 例 和 负 例 ， 然 后 再 推 
广 到 K>2 类 。 添 加 规则 旨 在 解释 正 例 ， 使 得 如 果 一 个 实例 不 被 任何 规则 覆盖 ， 则 它 将 被 
归 到 负 类 。 这 样 ， 当 规则 匹配 时 ， 它 或 者 是 正确 的 (真正 )， 或 者 导致 一 个 假 正 。Ripper 的 
外 循环 的 伪 代 码 在 图 9-7 中 。 

在 Ripper 中 ， 条 件 被 添加 到 规则 中 以 便 最 大 化 Quinlan 的 Foil 算法 (1990) 使 用 的 信 
息 增益 度量 。 假 设 有 规则 R., IFA OR 是 添加 一 个 条 件 后 的 候选 规则 。 增 益 的 改变 定义 为 

Gain(R',R) = s » (log; n — log; X) (9-17) 
其 中 N 是 被 R 覆盖 的 实例 数 ， 而 N+ 是 其 中 的 真正 例 数 。 类 似 地 ，N 是 被 R 覆盖 的 实例 
数 ，Ni+ 是 其 中 的 真正 例 数 。* 是 R 中 的 真正 例 并 且 增 加 条 件 之 后 在 R' 也 是 真正 实例 的 实 
例 数 。 根 据 信息 理论 ， 增 益 的 变化 度量 编码 正 例 所 需 二 进位 的 减少 。 

向 规则 增加 条 件 直 到 它 不 再 覆盖 负 例 。 一 旦 规则 形成 ， 就 以 相反 的 次 序 通 过 删除 条 件 
对 它 剪 校 ， 以 便 找 到 最 大 化 规则 价值 度量 (rule value metric) 的 规则 


nmi = ee (9-18) 
其 中 p 和 7 分别 是 前 枝 集 上 的 真正 例 和 假 正 例 数 。 前 枝 集 是 数据 的 1/3, 已 经 使 用 2/3 的 


数据 作为 增长 集 。 
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Ripper(Pos, Neg, &) 

RuleSet«-LearnRuleSet(Pos, Neg) 

For k iX 
RuleSet«-OptimizeRuleSet( RuleSet , Pos, Neg) 

LearnRuleSet(Pos, Neg) 

RuleSet- Ø ; 

DL<—DescLen(RuleSet, Pos, Neg) 

Repeat 
Rule--LearnRuleCPos. Neg) 

将 Rule 添加 到 RuleSet 
DL'«-DescLen(RuleSet, Pos, Neg) 
If DL'>DL+64 
PruneRuleSet(RuleSet, Pos, Neg) 
Return RuleSet 
If DL'—DL DL--DL' 
从 Pos 和 Neg 中 删除 被 Rule 覆盖 的 实例 
Until Pos=@; 
Return RuleSet 
PruneRuleSet(RuleSet, Pos, Neg) 

For 每 个 RuleE RuleSet， 按 相反 次 序 
DL<DescLen(RuleSet, Pos, Neg) 
DL'«-DescLen(RuleSet-Rule, Pos, Neg) 

IF DL’<DL A RuleSet 中 删除 Rule 

Return RuleSet 

OptimizeRuleSet( RuleSet, Pos, Neg) 

For 每 个 RuleE RuleSet 
DL0<-DescLen(CRuleSet，Pos，Neg) 
DL1<-DescLen(RuleSet-Rule+ 

ReplaceRuleCRuleSet, Pos, Neg). Pos, Neg) 
DL2<—DescLen( RuleSet-Rule+ 
ReviseRuleCRuleSet, Rule, Pos, Neg), Pos, Neg) 
If DL1=min(DLO, DL1, DL2) 
从 RuleSet 中 删除 Rule } H. 
添加 ReplaceRule(RuleSet, Pos, Neg) 
Else If DL2=min(DLO, DL1, DL2) 
从 RuleSet 中 删除 Rule 并 且 
添加 ReviseRule(RuleSet, Rule, Pos, Neg) 
Return RuleSet 





图 9-7 学 习 规 则 的 Ripper 算法 。 只 给 出 了 外 循环 ， 内 循环 与 在 决策 树 中 添加 一 个 节点 类 似 


一 旦 规则 形成 并 被 剪 枝 ， 就 从 训练 集中 删除 被 规则 覆盖 的 所 有 正 的 和 负 的 训练 实例 。 
如 果 还 有 正 实例 ， 则 继续 进行 规则 归纳 。 在 存在 噪声 的 情况 下 ， 即 当 规 则 不 能 解释 足够 多 
的 实例 时 ， 可 以 提前 中 止 归纳 。 为 了 度量 规则 的 价值 ， 使 用 最 小 描述 长 度 ( 参 见 4. 8 节 ) 
(Quinlan 1995)。 典 型 地 ， 如 果 规 则 的 描述 长 度 不 短 于 它 所 解释 的 实例 的 描述 长 度 ， 则 停 
止 。 规 则 库 的 描述 长 度 是 规则 库 中 所 有 规则 的 描述 长 度 之 和 ， 加 上 不 被 规则 库 覆 盖 的 实例 
的 描述 长 度 。 当 规则 的 描述 长 度 比 迄今 得 到 的 最 佳 描 述 长 度 多 64 位 时 ，Ripper 停止 添加 
规则 。 一 旦 学 习 得 到 规则 库 ， 就 以 道 序 忽略 规则 ， 看 是 否 能 够 删除 它们 而 不 增加 描述 
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在 学 习 后 规则 库 中 的 规则 也 要 优化 。 对 一 个 规则 ，Ripper 考虑 两 种 可 供 选 择 的 方案 : 
一 种 是 置换 规则 ， 从 空 规则 开始 ， 增 长 然后 剪 校 。 第 二 种 是 修正 规则 ， 从 规则 开始 ， 增 长 
然后 前 枝 。 这 两 个 规则 与 原 规 则 比较 ， 并 将 3 个 中 的 最 短 者 添加 到 规则 库 中 。 规 则 库 的 这 
种 优化 进行 次 ， 通常 进行 2 次 。 

HFE K>2 个 类 时 ， 将 这 些 类 按照 它们 的 先 验 概率 排序 ， 使 得 ci 的 先 验 概率 最 低 ，Ck 
的 先 验 概率 最 高 。 然 后 定义 一 系列 两 类 问题 。 开 始 ， 属 于 ci 的 实例 为 正 例 ， 其 他 类 的 实例 都 
是 负 例 。 学 习 ci 并 删除 它 的 所 有 实例 后 ， 学 习 把 Cc; 与 C3，…，Cxk 分 开 。 重 复 该 过 程 ， 直 到 只 
剩 ck 。 空 的 默认 规则 标记 为 Cg ， 使 得 如 果 一 个 实例 不 被 任何 规则 覆盖 ， 则 将 它 指派 到 Cx 。 

对 于 大 小 为 N 的 训练 集 ，Ripper WAAR REA OCN log N)， 并 且 可 以 用 于 很 大 的 训练 集 
(Dietterich 1997)。 学 习 的 规则 是 命题 规则 (propositional rule)。 更 准确 地 说 ， 是 条 件 中 包含 变量 
的 一 阶 规则 (first-order rule ， 称 作 谓 词 (predicate) 。 谓 词 是 一 个 困 数 ， 依 赖 于 其 变 元 的 值 ， 它 返 
回 真 或 假 。 因 此 ， 谓词 可 以 定义 属性 值 之 间 的 关系 ， 而 命题 不 能 (Mitchell 1997); 

IF FatherC y, x2 AND FemaleC ) THEN Daughter(z, y) 

在 逻辑 程序 设计 语言 (如 Prolog) 中 ， 这 种 规则 可 以 看 作 程序 ， 而 从 数据 中 学 习 它们 称 作 
归纳 逻辑 程序 设计 (inductive logic programming) 。 一 种 这 样 的 算法 是 Foil(Quinlan 1990) , 

将 一 个 值 指派 到 一 个 变量 称 作 绑 定 (binding)。 如 果 训 练 集中 存在 到 变量 的 绑 定 集 ， 则 
称 为 规则 匹配 。 学 习 一 阶 规则 类 似 于 学 习 命 题 规 则 ， 外 循环 添加 规则 ， 而 内 循环 向 规则 添 
加 条 件 ， 在 每 次 循环 结束 时 进行 规则 剪 校 。 不 同 的 是 ， 在 内 循环 ， 每 一 步 我 们 考虑 增加 一 
个 谓词 (而 不 是 命题 ) 并 检查 规则 的 性 能 提高 (Mitchell 1997) 。 为 了 计算 规则 的 性 能 ， 我 们 
考虑 变量 的 所 有 可 能 的 绑 定 ， 对 训练 集中 正 的 和 负 的 绑 定 计数 ， 并 使 用 ， 例 如 ， 式 (9- 
17) 。 在 学 习 一 阶 规则 时 ， 我 们 使 用 谓词 而 不 是 命题 ， 因 此 这 些 谓 词 应 当 事 先 定义 ， 并 且 
训练 集 是 已 知 为 真 的 谓词 集 。 


9.6 多 变量 树 
在 构造 单 变 量 树 时 ， 划 分 时 只 使 用 一 个 输入 维 。 在 多 变量 树 (multivariate tree) 中 ， 在 
每 个 决策 节点 都 可 以 使 用 所 有 的 输入 维 ， 因 此 多 变量 树 更 普遍 。 当 所 有 的 输入 都 是 数值 属 
性 时 ， 二 元 线性 多 变量 节点 定义 为 
fa GO wa + wu > 0 (9-19) 
因为 线性 多 变量 节点 取 变 量 的 加 权 和 ， 所 以 离散 属性 应 当 用 0/1 哑 数 值 变量 表示 。 式 
(9-19) 定 义 了 一 个 具有 任意 方向 的 超 平面 (参见 图 9-8) 。 从 根 到 树叶 的 路 径 上 的 连续 节点 
进一步 划分 实例 ， 而 叶 节 点 定义 输入 空间 * 
上 的 多 面体 。 具 有 数值 特征 的 一 元 节点 是 
一 种 特例 ， 所 有 的 wu 除 一 个 之 外 均 为 0。 
这 样 ， 式 (9-1) 的 单 变量 数值 节点 也 定义 
了 一 个 线性 判别 式 ， 但 是 与 轴 x; 正 交 于 
wno， 与 其 他 轴 x 平行 。 因此， 我 们 看 到 在 
单 变 量 节点 有 4d 个 可 能 的 方向 (w,) 和 NN, 


TP n REA RIEC woo. RAE plos 线性 多 变量 决策 树 的 例子 。 线 性 多 变量 节点 


afin 可 以 安放 任意 超 平面 ， 因 而 更 普遍 ， 而 单 变 
索 是 可 能 的 。 在 多 变量 节点 ， 有 2 p ) 量 节点 局 限于 平行 于 轴 的 划分 
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个 可 能 的 超 平面 (Murthy，Kasif 和 Salzberg 1994)， 并 且 不 再 可 能 进行 穷 举 搜索 。 
当 从 单 变量 节点 过 渡 到 线性 多 变量 节点 时 ， 节 点 变 得 更 灵活 。 使 用 非 线 性 多 变量 市 
点 ， 还 可 以 更 加 灵活 。 例 如 ， 使 用 二 次 多 项 式 ， 有 
记 Cxz):xTW xx 十 mmIx 十 wy0 (9-20) 
Guo 和 Gelfand(1992) 提 出 使 用 多 层 感 知 器 (第 11 BE). Z JERA aR EE Zk E Jk R R 
线性 和 ， 是 另 一 种 产生 非 线 性 决策 节点 的 方法 。 还 一 种 可 能 的 方法 是 使 用 球形 节点 
(sphere node) (Devroye, Gyórfi 和 Lugosi 1996) 
fm (X) + |] x — e, an (9-21) 
其 中 6 是 球 心 ，a, 是 半径 。 
已 经 提出 了 许多 用 于 分 类 的 学 习 多 变量 决策 树 的 算法 : 最 早 的 算法 是 CART 算法 的 
多 变量 版 本 (Breiman 等 1984) ， 它 逐一 对 权重 w, 进行 微调 来 降低 不 纯度 。CART 还 包含 
一 个 预 处 理 步骤 ， 通 过 子 集 选 择 降 低 维度 (第 6 章 ) 并 降低 节点 的 复杂 度 。 一 种 对 CART 
扩展 的 算法 是 OC1 算法 (Murthy，Kasif 和 Salzberg 1994) 。 一 种 可 能 的 方法 (Loh 和 Van- 
ichsetakul 1988) 是 假设 所 有 的 类 都 是 高 斯 的 ， 且 具有 共同 的 协 方差 和 矩阵， 因此 具有 把 一 个 
类 与 其 他 类 分 开 的 线性 判别 式 ( 第 5 章 )。 在 这 种 情况 下 ， 具 有 K 个 类 ， 每 个 节点 具有 K 
个 分 支 ， 而 每 个 分 支 携带 一 个 将 每 个 类 与 其 他 类 分 开 的 线性 判别 式 。Brodley 和 Utgofi 
(1995) 提 出 了 一 种 方法 ， 训 练 线 性 判别 式 ， 它 以 最 小 化 分 类 误差 (第 10 FE), Guo 和 Gel- 
fand(1992) 提 出 了 一 种 方法 ,将 K 2 个 类 划分 为 两 个 超群 ， 然 后 学 习 二 元 多 变量 树 。 
Loh 和 Shih(1997) 使 用 2 均值 聚 类 (第 7 章 ) 将 数据 分 成 两 组 。 一 旦 类 分 成 两 组 ，Yildiz 和 
Alpaydin(2000) 就 使 用 LDA( 第 6 章 ) 找 出 判别 式 。 
任何 分 类 方法 都 从 假设 类 中 选取 一 个 假设 来 近似 一 个 实际 (未 知 的) 判别 式 。 当 使 用 单 
变量 节点 时 ， 近 似 使 用 分 段 的 、 平 行 于 轴 的 超 平面 。 使 用 线性 多 变量 节点 ， 可 以 使 用 任意 
的 超 平面 ， 并 且 使 用 较 少 的 节点 得 到 更 好 的 近似 。 如 果 基 础 判别 式 是 曲线 的 ， 则 非 线 性 节 
点 更 好 。 分 支 因 子 具 有 类 似 的 效果 ， 因 为 它 确定 节点 定义 的 判别 式 的 个 数 。 具 有 两 个 分 文 
的 二 元 决策 节点 定义 一 个 将 输入 空间 一 分 为 二 的 判别 式 。n 路 节点 将 输入 空间 划分 为 n 个 
部 分 。 这 样 ， 节 点 的 复杂 性 、 分 支 因 子 和 树 的 大 小 之 间 存 在 相关 性 。 使 用 简单 节点 和 较 低 
的 分 支 因 子 可 以 得 到 一 棵 大 树 。 但 是 ， 这 样 的 树 ( 例 如 ， 具 有 单 变 量 的 二 元 节点 ) 的 可 解释 
性 更 好 。 线 性 多 变量 节点 更 难 解 释 。 更 复杂 的 节点 也 需要 更 多 的 数据 ， 并 且 随 着 我 们 沿 树 
向 下 ， 数 据 越 来 越 少 ， 更 容易 过 拟 合 。 如 果 节 点 复杂 且 树 比较 小 ， 那 么 我 们 也 就 失去 了 通 
过 树 想 要 得 到 的 主要 东西 一 一 将 问题 划分 成 一 系列 简单 问题 。 毕 竟 ， 我 们 可 以 在 根 节点 具 
有 一 个 非常 复杂 的 分 类 器 ， 它 区 分 所 有 的 类 ， 但 是 这 就 不 是 一 棵 树 ! 


9.7 注释 


自从 凯撒 将 一 个 复杂 的 问题 (如 高 卢 人 问题 ) 分 解 成 一 组 较 简 单 的 问题 以 来 ， 分 治 一 直 
作为 一 种 启发 式 方法 频繁 使 用 。 在 计算 机 科学 中 ， 频 繁 地 使 用 树 将 复杂 度 从 线性 降低 到 对 
数 时 间 。Breiman 等 1984 使 得 决策 树 在 统计 学 中 流行 ，Quinlan 1986 和 Quinlan 1993 使 
得 决策 树 在 机 带 学 习 中 流行 。 多 变量 树 归 纳 方法 最 近 才 开始 流行 ，Yildiz 和 Alpaydin 2000 
给 出 了 综述 和 对 许多 数据 集 的 比较 。 许 多 研究 者 (如 Guo 和 Gelfand 1992) 将 树 的 简单 性 与 
多 层 感知 器 的 准确 性 结合 在 一 起 (第 11 章 )。 然 而 ， 许 多 研究 表明 单 变量 树 相 当 准 确 、 具 
有 很 好 的 可 解释 性 ， 而 线性 ( 非 线性 ) 多 变量 节点 带 来 的 附加 复杂 度 很 难 被 认为 是 合理 的 。 
Rokach 和 Maimon(2005) 给 出 了 最 新 的 综述 。 
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杂 变 量 决 策 树 (omnivariate decision tree) (Yildiz 和 Alpaydin 2001) 是 一 种 混合 树 结构 ， 
其 中 树 可 以 具有 单 变 量 、 线 性 多 变量 或 非 线 性 多 变量 节点 。 其 基本 思想 是 在 树 构 造 期 间 ， 
每 个 决策 节点 对 应 于 到 达 该 节点 的 训练 数据 子 集 定 义 的 一 个 不 同 的 子 问题 ， 不 同 的 模型 可 
能 更 合适 ， 应 当 找 出 和 使 用 合适 的 模型 。 到 处 都 用 相同 类 型 的 节点 相当 于 假定 输入 空间 的 
所 有 部 分 都 具有 相同 的 归纳 偏 傈 。 在 杂 变 量 树 中 ， 在 每 个 节点 上 ， 在 验证 集 上 使 用 统计 检 
验 (第 14 章 ) 训 练 和 比较 不 同类 型 的 候选 节点 ， 以 便 确 定 哪 一 个 泛 化 性 能 最 好 。 除 非 复 杂 
的 决策 节点 表现 出 显著 高 的 准确 率 ， 否 则 就 选取 较 简 单 的 候选 节点 。 结 果 表 明 ， 在 树 构造 
的 早期 更 靠近 树 根 的 地 方 使 用 较 复杂 的 节点 ， 而 随 着 我 们 沿 树 向 下 ， 简 单 的 单 变量 节点 就 
足够 了 。 随 着 越 来 越 靠 近 树 叶 ， 问 题 越 来 越 简单 ， 同 时 数据 越 来 越 少 。 在 这 种 情况 下 ， 复 
杂 的 节点 过 拟 合 ， 并 被 统计 检验 拒绝 。 随 着 我 们 沿 树 向 下 ， 节 点 的 个 数 呈 指数 增加 。 因 
此 ， 大 部 分 节点 是 单 变量 的 ， 并 且 总 体 复 杂 度 增加 不 太 多 。 
决策 树 更 多 地 用 于 分 类 而 不 是 回归 。 它 们 非常 流行 。 它 们 的 学 习 和 响应 速度 都 很 快 ， 
并 且 在 许多 领域 都 很 准确 (Murthy 1998) 。 由 于 它们 的 可 解释 性 ， 甚 至 在 有 更 准确 的 方法 
时 ， 决 策 树 仍然 是 首选 的 。 当 决策 树 写成 IF-THEN 规则 集 时 ， 树 可 以 被 理解 ， 并 且 可 以 
被 具有 应 用 领域 知识 的 专家 验证 。 
通常 ， 在 使 用 更 复杂 算法 之 前 ， 建 议 先 试用 决策 树 ， 并 将 它 的 准确 率 作 为 性 能 基准 。 
树 分 析 还 能 帮助 我 们 理解 重要 特征 ， 单 变量 树 还 用 于 自动 特征 提取 。 单 变量 树 的 另 一 个 重 
要 优点 是 它 可 以 使 用 数值 和 离散 特征 ， 而 不 需要 将 一 种 类 型 转换 成 另 一 种 。 
决策 树 是 非 参 数 方法 ， 类 似 于 第 8 章 讨论 的 基于 实例 的 方法 ， 但 是 存在 一 些 不 同 之 处 : 
e 每 个 树叶 对 应 于 一 个 “ 箱 ”， 只 不 过 箱 不 必 具 有 相同 的 大 小 (如 Parzen 窗口 ) 或 相同 个 
数 的 实例 (如 & 最 近邻 ) 。 
e 箱 的 划分 不 仅仅 根据 输入 空间 中 的 相似 度 ， 而 且 需 要 通过 入 或 均 方 误差 ,使 用 输出 
信息 。 
e 决策 树 的 男 一 个 优点 是 由 于 采用 树 结构 ， 所 以 只 通过 少量 比较 就 能 找到 树叶 ( 箱 )。 
e 决策 树 一 旦 构造 就 不 需要 存放 所 有 的 训练 集 ， 而 只 需要 存放 树 的 结构 、 决 策 节点 的 
参数 和 树叶 节点 的 输出 值 。 与 需要 存储 所 有 训练 实例 的 基于 实例 的 非 参数 方法 相 
比 ， 这 意味 着 决策 树 的 空间 复杂 度 也 非常 小 。 
使 用 决策 树 ， 一 个 类 不 必 具 有 所 有 实例 都 匹配 的 单个 描述 。 一 个 类 可 以 具有 多 个 可 能 
的 描述 ， 它 们 甚至 可 能 在 输入 空间 中 不 相交 。 
迄今 为 止 ， 我 们 讨论 的 决策 树 都 有 硬 (hard) 决 策 节点 ， 即 依赖 于 测试 ， 我 们 取 一 个 分 
支 。 从 根 开始 ， 沿 着 一 条 路 径 ， 在 树叶 上 停止 在 那里 输出 存储 在 树叶 中 的 响应 值 。 然 
而 ， 在 软 决 策 树 (soft decision tree) 中 ， 以 不 同 的 概率 取 所 有 的 分 文 ， 并 且 并 行 地 沿 着 所 
有 路 径 到 达 所 有 的 树叶 ， 但 以 不 同 的 概率 。 输 出 的 是 所 有 树叶 中 的 所 有 输出 的 加 权 平 均 ， 
其 中 权重 对 应 于 沿路 径 的 累积 概率 。 我 们 将 在 12. 9 节 讨 论 。 
在 第 17 章 ， 我 们 讨论 组 合 多 学 习 器 。 一 种 最 流行 的 组 合 模型 就 是 决策 树 ， 并 且 决 策 
树 的 系 综 称 为 决策 森林 (decision forest)。 我 们 将 看 到 ， 如 果 我 们 训练 的 不 是 一 棵 而 是 多 棵 
决策 树 ， 则 每 个 在 训练 集 的 随机 子 集 或 输入 特征 的 随机 子 集 上 训练 ， 并 组 合 它 们 的 预测 ， 
总 体 准 确 率 可 以 显 着 提高 。 这 就 是 随机 森林 (random forest) 方 法 的 思想 。 
树 不 同 于 前 几 章 讨论 的 统计 模型 。 树 直接 地 对 分 离 类 实例 的 判别 式 编码 ， 而 不 必 携 市 
许多 关于 这 些 实例 在 该 区 域 中 如 何 分 布 的 信息 。 决 策 树 是 基于 判别 式 的 (discriminant- 
based), ， 而 统计 学 方法 是 基于 似 然 的 (likelihood-based) ， 因 为 它们 在 使 用 贝 叶 斯 规则 并 在 


计算 判别 式 之 前 显 式 地 估计 p(x|c;)。 基 于 判别 式 的 方法 绕 过 类 密度 估计 ， 直 接 估计 判别 
式 。 在 后 几 章 中 ,我 们 将 进一步 讨论 基于 判别 式 的 方法 ，。 


98 习题 


1. 


将 基尼 指数 式 (9-5) 和 误 分 类 误差 式 (9-6) 推 广 到 K —2 7828, SBMA RRM, HR 
误差 推广 到 风险 。 


解 : 
K 
e K>2 类 的 基尼 指数 ; (pis por tt pr)= 2») > Pes 
i=] j<i 
e 误 分 类 误差 : $Cp1, Por t px) =1—max pi 


K 
e US: $a (pis post bk — min ta * labs , 其 中 A 是 KxXK ARER. 
k=1 


. 对 于 数值 属性 ， 我 们 可 以 不 用 二 元 划分 ， 而 通过 两 个 国 值 和 三 个 分 支 来 使 用 三 元 划分 


Xy < Wig s Wm Xj Wr Ly vU 

(EDO RE UR Jr. AES PII BU wj 和 ws。 与 二 元 节点 相 比 ， 这 种 节点 的 优 
缺点 是 什么 ? 

f: 对 于 数值 属性 ， 不 是 使 用 一 个 划分 闽 值 ， 而 是 需要 尝试 所 有 可 能 的 划分 国 值 
对 ， 并 选择 最 好 的 。 当 有 两 个 划分 时 ， 有 三 个 孩子 ， 并 且 在 划分 后 的 炉 计 算 中 ， 我 们 
需要 在 对 应 于 三 个 分 支 的 实例 上 求 和 ，。 

找到 最 好 的 一 对 的 复杂 度 为 O(N ) 而 不 是 O(N )， 每 个 节点 存储 两 个 立 值 而 不 是 
一 个 ， 并 且 有 三 个 分 支 而 不 是 两 个 。 其 优点 是 一 个 三 元 市 点 就 将 输入 一 分 为 三 ， 而 这 
需要 两 个 连续 的 二 元 节点 。 哪 一 个 更 好 ， 这 取决 于 手头 上 的 数据 ; 如 果 我 们 假设 需要 
有 限 的 间隔 (例如 ， 和 矩形 )， 三 元 节点 可 能 是 有 利 的 。 


. 提出 一 种 带 回 渊 的 树 归 纳 算法 。 
. 在 产生 单 变量 树 时 ， 具 及 个 可 能 值 的 离散 属性 可 以 用 n 个 0/1 哑 变 量 表示 ， 并 将 它们 


AYE nn 个 单独 的 数值 属性 。 这 种 方法 的 优 缺 点 是 什么 ? 


. 为 球形 树 ( 式 (9-21)) 推 导 一 个 学 习 算 法 。 将 它 推广 到 椭 球 形 树 。 
. 在 回归 树 中 ， 我 们 提 到 在 树叶 节点 不 是 计算 均值 ， 而 是 做 线性 回归 拟 合 ， 并 使 树叶 上 


的 响应 依赖 于 输入 。 对 分 类 树 提 出 一 种 类 似 的 方法 。 

解 : 这 意味 着 ， 在 每 个 树叶 ， 将 有 一 个 用 到 达 那 里 的 用 训练 实例 训练 的 线性 分 类 
器 。 该 线性 分 类 器 将 对 不 同 的 类 产生 后 验 概率 ， 而 这 些 概 率 将 用 于 炉 的 计算 。 也 就 是 
说 ， 纯 树叶 (只 包含 一 个 类 的 实例 ) 是 不 必要 的 ; 在 该 树叶 的 分 类 器 产生 的 后 验 概率 接 
近 于 0 或 1 就 足够 了 。 


. 为 回归 提出 一 种 规则 归纳 算法 。 
. 在 回归 树 中 ， 如 何 消 除 树 叶 边 界 上 的 不 连续 性 ? 
. 假设 对 于 分 类 问题 我 们 已 经 有 一 棵 训练 后 的 决策 树 。 除 了 训练 集 之 外 ， 如 何在 构建 & 最 


近邻 分 类 时 使 用 它 ? 
解 : 决策 树 做 特征 选择 ， 并 且 我 们 可 以 只 使 用 被 树 使 用 的 特征 。 每 个 树叶 中 的 平 
均 实 例 数 也 给 了 我 们 一 个 关于 好 上 & ELE fei 


10. 在 多 变量 树 中 ， 很 可 能 在 一 个 内 部 节点 上 不 需要 所 有 的 输入 变量 。 如 何 降低 一 个 节 氮 


上 的 维度 ? 
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解 : 每 棵 子 树 处 理 一 个 输入 空间 的 、 可 以 由 少量 特征 解释 的 局 部 区 域 。 我们 可 以 
只 用 到 达 该 节点 的 实例 子 集 做 特征 选择 或 提取 。 理 想 地 ， 当 我 们 沿 着 树 向 下 时 ， 我 们 
236 可 望 需要 更 少 的 特征 。 
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线性 判别 式 





在 线性 判别 式 中 ， 我 们 假定 一 个 类 的 实例 与 其 他 类 的 实例 是 线性 可 分 的 。 这 是 一 种 基 
于 判别 式 的 方法 ， 它 直接 由 给 定 的 有 标记 的 样本 佑 计 线 性 判别 式 的 参数 。 


10.1 引言 


在 前 面 的 章节 中 ， 对 于 分 类 ， 我 们 定义 了 一 组 判别 式 图 数 gj (x), j=1, or, K, 并 
Ame g, x) —max x g; GO, 我 们 就 选择 C,。 

前 面 在 讨论 分 类 方法 时 ,我们 首先 估计 先 验 概率 PCc;) 和 类 似 然 5(x|c;)， 再 使 用 贝 叶 
斯 规则 计算 后 验 密 度 。 然 后 ， 我 们 使 用 后 验 密度 定义 判别 式 函 数 ， 例 如 

gi(x) = log P(c; |x) 

这 称 作 基于 似 然 的 分 类 (likelihood-based classification? ， 并 且 在 前 面 已 经 讨论 了 估计 
类 似 然 p(x|ci) 的 参数 (第 5 章 ) 、 半 参数 (第 7 章 ) 和 非 参 数 ( 第 8 章 ) 方 法 。 

现在 ， 我 们 讨论 基于 判别 式 的 分 类 (discriminant-based classification)， 这 里 我 们 绕 过 
似 然 或 后 验 概率 的 估计 ， 直 接 为 判别 式 假 定 模型 。 正 如 我 们 在 第 9 章 讨 论 决 策 树 时 所 看 到 
的 ， 基 于 判别 式 的 方法 对 类 之 间 的 判别 式 形 式 进 行 假 设 ， 而 不 对 密度 (例如 ， 是 否 是 高 斯 
分 布 )、 输 入 是 否 相 关 等 知识 做 任何 假设 。 

为 判别 式 定义 一 个 模型 

gi(x|®,) 

显 式 地 用 参数 ;的 集合 参数 化 ， 与 基于 似 然 的 模式 不 同 。 基 于 似 然 的 方法 在 定义 似 然 密 度 
时 具有 隐 式 参数 。 这 是 不 同 的 归纳 偏 傈 : 我 们 对 把 类 分 开 的 边界 形式 进行 假设 ， 而 不 是 对 
类 密度 的 形式 进行 假设 。 

学 习 是 优化 模型 参数 更 ;来 最 大 化 分 开 的 质量 ， 即 最 大 化 在 给 定 类 标号 的 训练 集 上 的 
分 类 准确 率 。 这 不 同 于 基于 似 然 的 方法 。 基 于 似 然 的 方法 分 别 为 每 个 类 搜索 最 大 化 样本 似 
然 的 参数 。 

在 基于 判别 式 的 方法 中 ， 我 们 并 不 关注 正确 估计 类 区 域 中 的 密度 ;我们 所 关注 的 是 正 
确 估 计 类 区 域 之 间 的 边界 (boundary) 。 判 别 式 方法 的 创立 者 (如 Vapnik 1995) 指 出 ， 佑 计 
类 密度 比 估计 类 判别 式 更 困难 ， 并 且 为 解决 较 容 易 的 问题 而 解决 困难 的 问题 是 没有 意义 
的 。 当 然 ， 仅 当 判 别 式 可 以 用 简单 函数 近似 时 才 确 实 如 此 。 

在 本 章 ， 我 们 关注 最 简单 的 情况 ， 其 中 判别 式 是 x 的 线性 郴 数 : 


d 
g: (x |w, »Wio ) = wx + wi = >) wy; + Wi (10-1) 


线性 判别 式 (linear discriminant) 经 常 使 用 ， 主 要 是 由 于 它 的 简单 性 。 它 的 空间 和 时 间 
复杂 度 都 是 Oo(d)。 线 性 模型 容易 理解 ， 最 终 的 输出 是 输入 属性 立 的 加 权 和 。 权 重 wj; 的 大 
小 显示 了 xz; 的 重要 性 ， 而 它们 的 符号 显示 其 作用 的 正 负 。 大 部 分 函数 是 可 加 的 ， 因 为 输出 
是 多 个 属性 作用 的 加 权 和 ， 其 中 权重 可 能 是 正 的 (加 强 ) 或 负 的 (抑制 )。 例 如 ， 当 一 位 顾客 
申请 信用 卡 时 ， 金 融 机 构 计 算 申 请 者 的 信用 得 分 。 得 分 一 般 是 多 个 属性 作用 之 和 。 例 如 ， 
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年 薪 的 作用 为 正 ( 年 薪 高 的 得 分 高 )。 

在 许多 应 用 中 ， 线 性 判别 式 相当 准确 。 例 如 ， 我 们 知道 当 类 是 高 斯 的 且 具 有 相同 的 协 
方差 矩阵 时 ， 最 佳 判别 式 是 线性 的 。 然 而 ， 即 使 该 假设 不 成 立 ， 也 可 以 使 用 线性 判别 式 ， 
并 且 不 必 对 类 密度 做 任何 假设 就 能 计算 模型 参数 。 在 试用 更 复杂 的 模型 ， 确 保 增 加 的 复杂 
性 是 合理 的 之 前 ， 我 们 应 该 一 直 使 用 线性 判别 式 。 

正如 我 们 一 直 做 的 那样 ， 我 们 把 寻找 线性 判别 式 函 数 问题 归结 为 搜索 最 小 化 茶 个 误差 
隐 数 的 参数 值 问 题 。 尤 其 是 ， 我 们 关注 优化 准则 函数 的 梯度 (gradient) 方 法 。 


10.2 推广 线性 模型 


当 线 性 判别 式 不 够 灵活 时 ， 我们 可 以 提高 复杂 度 ， 使 用 二 次 判别 式 (quadratic discrim- 
inant) PR AW 
gi (x |W; s w, swo) = x Wix + wx + wi; (10-2) 
但 是 ， 这 种 方法 的 复杂 度 是 o(&: ) ， 并 且 我 们 还 会 遇 到 偏 傈 和 方差 的 两 难 选择 : 尽管 二 次 
模型 更 通用 ， 但 是 它 需 要 更 大 的 训练 集 ， 并 且 在 小 样本 上 可 能 过 拟 合 。 
一 种 等 价 的 方法 是 通过 增加 高 阶 项 (higher-order term) (又 称 为 乘积 项 (product term) ) 
对 输入 进行 预 处 理 。 例 如 ， 对 于 两 个 输入 oA zz ， 可 以 定义 新 变量 
Ej = 
并 取 z—[mis ms mi mo es] 为 输入 。 定 义 在 五 维 z 空间 上 的 线性 函数 对 应 于 二 维 x* 空 
间 上 的 非 线性 函数 。 赫 代 在 原始 空间 定义 非 线性 函数 (判别 式 或 回归 )， 我 们 需要 做 的 是 定 
义 到 新 空间 的 、 合 适 的 非 线性 变换 ， 其 中 新 空间 上 的 函数 可 以 是 线性 的 。 
判别 式 可 以 表示 成 


gi (x) — > wp; (x) (10-3) 
其 中 $; GO fi X dh Hk (basis function), fe ri Xe — 2H n] SE AY JE PRG. Hof EHE : 


e sin(x) 

è exp(— (zı —m)* jc) 

e exp(—|x—m|l’/c) 

e log(x;) 

e l1(r—c) 

e | Caxı Hbr: >c) 
EP m, a, b, c ERE, med AE, m4 5 为 真 时 1(5) 返 回 1， 否 则 返回 0。 将 非 线 
性 函数 表示 成 非 线性 基 函 数 的 线性 和 的 想法 并 不 是 新 想法 ， 最 初 称 作 势 函数 (potential 
function) CAizerman, Braverman 和 Rozonoer 1964) 。 多 层 感 知 器 (第 11 SEO 4142 [n] HE A% 
(第 12 章 ) 具 有 进一步 的 优点 ， 可 以 在 学 习 时 调整 基 孙 数 的 参数 。 在 第 13 章 ， 我 们 讨论 文 
持 向 量 机 ， 它 使 用 由 这 种 基 函 数 构造 的 核 函 数 。 


10.3 线性 判别 式 的 几何 意义 
10.3.1 两 类 问题 


让 我 们 从 最 简单 的 两 类 问题 开始 。 在 这 种 情况 下 ， 一 个 判别 式 函 数 就 足够 了 : 
g(x) =g; (x) — g: (x) 
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=(Cwix+ wp) — (wixt w,) 
=(w, — w)" x -+ Guy — wr) 
= w! x + w 
并 且 如 果 g(x)>0, MAC., TUAC- 
这 定义 了 一 个 超 平面 ， 其 中 w 是 权重 向 量 (weight vector), w Æ BJ 44 (threshold), 
后 者 称 作 国 值 是 因为 规则 可 以 改写 为 : WR w'x 放 一 wo。， 则 选择 C1! ， 否 则 选择 c,。 超 平 
面 将 输入 空间 划分 成 两 个 “半空 间 ”: Ci 的 决策 区 域 RR 和 CC; 的 决策 区 域 R,。Ri 中 的 任何 x 
都 在 超 平面 的 正 (positive) 侧 ， 而 及 :中 的 任何 x 都 在 超 平面 的 负 (negative) 侧 。 当 x 为 0 
时 ，g(x) 二 wo。， 并 且 如 果 wo 盖 0， 则 原点 在 超 平面 的 正 侧 ， 如 果 wo 二 0， 则 原点 在 超 平面 
的 负 侧 ， 而 如 果 w 二 0， 则 超 平面 经 过 原点 (参见 图 10-1), 
取决 策 面 上 的 两 个 点 训 和 x, CB g(xi) 二 g(xi) 二 0)， 则 
wxi 二 two =w xX: + uw 
w'(x, — x) =0 


并 且 我 们 看 到 w 是 超 平面 上 的 任何 向 量 的 法 线 。 将 x 改写 为 (Duda，Hart 和 Stork 2001) 


x= x +r To] 
其 中 x, 是 x 到 超 平面 的 法 线 投影 ， 而 7 给 出 x 到 超 平 面 的 距离 。 如 果 x 在 负 侧 ， 则 > 为 
fa; 如 果 x 在 正 侧 ， 则 7 为 正 ( 参 见 图 10-2)。 计 算 g(x) 并 注意 g(x,) 二 0， 有 


P= Tet (10-4) 
于 是 ， 我 们 看 到 超 平 面 到 原点 的 距离 为 
= = (10-5) 


这 样 ，wo 决 定 超 平面 关于 原点 的 位 置 ， 而 w 决定 它 的 方向 。 







g(x)=0 


X 


g(x) =w,x,+w,x,+0,=0 


g(x) <0 g(x) >0 


| wy |/|| wl | 





图 10-1 在 二 维 情 况 下 ， 线 性 判别 式 是 一 条 图 10-2 线性 判别 式 的 几何 解释 
将 两 个 类 的 实例 分 开 的 直线 
10. 3.2 多 类 问题 
当 存 在 K>2 个 类 时 ， 有 天 个 判别 式 函 数 。 当 它们 都 是 线性 的 时 ， 有 
g: (x |w, Wio) = w; x F Wio (10-6) 


242 


243 


l 
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稍 后 ， 我 们 将 讨论 学 习 ， 但 是 现在 我 们 假定 已 经 计算 出 参数 w 和 w;。， 使 得 对 于 训练 
集中 的 所 有 x， 有 
gi (x |w, wio) = 2 — (10-7) 
使 用 这 种 判别 式 函 数 相当 于 假设 所 有 的 类 都 是 线性 可 分 的 (linearly separable), 。 即 对 于 每 
个 类 c;， 存 在 一 个 超 平面 互 ,， 使 得 所 有 的 xEci 都 在 它 的 正 侧 ， 所 有 的 xXEC(I 关 让 都 在 
它 的 负 侧 (参见 图 10-3). 
在 检验 时 ， 给 定 Y， 理 想 情 况 下 应 当 只 
4 —^ g OGH=1, ws KAFO 面 其 化 
的 都 小 于 0。 但 是 ， 并 非 总 是 如 此 : 这 些 超 
平面 为 正 的 半 个 空间 可 能 重 共 ,或 者 说 可 能 
有 所 有 g;(x) 都 小 于 0 的 情况 。 这 些 情况 可 
以 看 作 拒 绝 (reject),， 但 是 通常 的 方法 是 将 x 
指派 到 具有 最 大 判别 式 值 的 类 : 
选择 C;， 如 果 g(x) = maxi, g(x) 
(10-8) 
WE, Jae | / | w |t PA fi A, x 到 i 


: 图 10-3 在 线性 分 类 中 ， 每 个 超 平面 HORE C; 2S 
超 平面 的 距离 。 假 定 所 有 FA SS MKK 实例 与 其 他 类 的 实例 分 开 。 为 了 做 到 这 一 





度 ， 这 将 该 点 指派 到 (在 所 有 的 g; (x) >0 点 ， 类 应 当 是 线性 可 分 的 。 虚 线 是 线性 分 
中 ) 该 点 到 其 超 平面 最 远 的 类 。 这 称 作 线性 类 器 归 约 后 的 边界 


分 类 器 (linear classifier) ， 从 几何 意义 上 说 ， 它 将 特征 空间 划分 成 K PORK MRMG 
见 图 10-3). 


10.4 逐 对 分 离 

如 果 类 不 是 线性 可 分 的 ， 则 一 种 方法 是 将 它 划 分 成 一 组 线性 问题 。 一 种 可 能 的 方法 是 
类 的 逐 对 分 离 (pairwise separation) (Duda, Hart 和 Stork 2001) 。 它 使 用 开 ( 开 一 1)72 个 线 
性 判别 式 g; (x)， 每 对 不 同 的 类 对 应 一 个 ( 参 
见 图 10-4): 

g; (x |w, SW) = wax + Wyo 

参数 w, Gz-DTEVI ARIETE SE. (eG 
>0 wR x EC, 
<0 加 EC = Lyk, 





gj (x) = Bizj 
无 定义 “否则 
(10-9) 

也 就 是 说 ， 如 果 xE, ki, kAj, WE x, 
训练 g; (x) 时 不 使 用 x 图 10-4 在 逐 对 线性 分 离 中 ， 每 一 对 类 有 一 个 分 

在 检验 时 ， 如 果 对 任意 的 7 天?， 都 有 saglik igo ln 
gi G070, MEAC. HH; 的 负 侧 )， 我 们 不 考虑 s 在 

在 许多 情况 下 ， 可 能 对 于 任何 i， 这 一 条 这 种 情况 下 ,Ci 不 是 关于 其 他 类 线性 可 


件 都 不 满足 ， 并 且 如 果 我 们 不 想 拒 绝 这 种 情 分 的 ， 但 却 是 逐 对 线性 可 分 的 
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况 ， 则 可 以 用 和 式 放 宽 该 合 取 ， 选 择 最 大 化 下 式 的 类 
g(x) = > gy (x) (10-10) 


即使 这 些 类 不 是 线性 可 分 的 ， 但 如 果 这 些 类 是 逐 对 线性 可 分 的 (这 种 情况 的 可 能 
性 更 大 )， 则 可 以 使 用 逐 对 分 离 ， 导 致 类 的 非 线 性 分 离 ( 参 见 图 10-4) 。 这 是 将 复杂 问 
题 ( 例 如 ， 非 线性 问题 ) 分 解 成 一 系列 较 简 单 问题 (例如 ， 线 性 问题 ) 的 又 一 个 例子 。 我 
们 已 经 看 到 使 用 这 一 思想 的 决策 树 ( 第 9 章 )， 并 且 在 第 17 章 讨 论 组 合 多 个 模型 时 还 
将 看 到 更 多 的 例子 ， 例 如 纠 错 输出 码 和 混合 专家 模型 ， 其 中 线性 模型 数 小 于 OCK ) 。 


10.5 参数 判别 式 的 进一步 讨论 


在 第 5 章 ， 我 们 看 到 如 果 类 密度 p(x|c;) 是 高 斯 的 且 具 有 共同 的 协 方差 矩阵 ， 则 判别 
X PR BCE Be PE BU 


g(x) = wi X + Wio (10-11) 
其 中 参数 可 以 用 下 式 解 析 地 计算 
w —XE'y 
— jw En. + logP(C;) (10-12) 


给 定数 据 集 ， 首 先 计 算 p; 和 允 的 人 和 估计， 然后 把 估计 m A S 插入 式 (10-12)， 计 算 线 性 
判别 式 的 参数 。 
让 我 们 再 次 考虑 两 类 的 特殊 情况 。 我 们 定义 y=P |x), Plc2|x)=1—y. WEA 
类 时 ， 
y > 0.5 


——»1 

FEC), WR ing” , 
y 

1 =9 





log 


否则 选择 C， 
log y/(1 一 y) 称 作 分 对 数 (logit) 变 换 或 y 的 对 数 几 率 (log odds) 。 在 两 个 共享 相同 的 协 
方差 矩阵 的 正 态 类 的 情况 下 ， 对 数 几 率 是 线性 的 
E Pte,|x) _ ,.. P(;|x) 
logitCP(Ci | x)) =log i-— Pie [33 rom log Bis |x) ES 


slc... Pd 
pales)? 98 BCC,) 


— qoo 2077 [E| expl— 0/2) Gc p" E rp) | 1, PG 
5 (22)? | E| expl (1/2) (x —i E —1) 8 Plc) 








— log 





= w x + us (10-13) 
其 中 
w =X "(pi — W) 
Wo 一 一 也 (m + po) TE" Qu — pr) + log pe (10-14) 
4 X BC AY wi 


log 5 Pte) | x) 


> aT 
—Po l5 Ww x -+ uy 
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fe iF 4% Pt (logistic) KIM, MPRA S Æ (sigmoid) pk (SB WLM 10-5): 
u l 
= 1+expl— Cw? x +w )] 


P(c |x) = sigmoid( w'x + wo) 


在 训练 阶段 ， 我 们 估计 m. m, 1 
S， 并 将 这 些 估计 插 人 式 (10-14) 来 计算 go 
判别 式 的 参数 。 在 检验 阶段 ， 给 定 x， og 
我 们 可 以 

D 计算 g(Cx) 王 世 |x+w, FAW 
果 g(Cxz) 二 0， 则 选择 Ci sk 

2) 计算 y= 二 sigmoid Cw' |x 十 ww )， 并 
HS y>os5s, M xk f& ci. AW 
sigmoid(0) 王 0.5。 在 后 一 种 情况 下 ，S 形 
函数 将 判别 式 的 值 变换 为 后 验 概 率 。 当 有 
两 个 类 并 且 只 有 一 个 判别 式 时 ， 这 是 有 效 “| 07 ni 
的 。 4610.7 45, Reem K>e Voa s a x o 2 4 6 & iô 


估计 后 验 概率 。 图 10-5 ”逻辑 斯 详 ( 或 STB) PRK 
10.6 梯度 下 降 


在 基于 似 然 的 分 类 中 ， 参 数 是 p(x|c;) 和 P(c;) 的 充分 统计 量 ， 而 使 用 的 估计 参数 的 
方法 是 最 大 化 似 然 。 在 基于 判别 式 的 方法 中 ， 参 数 是 判别 式 的 参数 ， 并 且 对 于 最 小 化 训练 
集 上 的 分 类 误差 ， 它们 是 最 优 的 。 当 w 表示 参数 集 ，E(w |X) 表 示 以 w 为 参数 在 给 定 训 
练 集 X 上 的 误差 时 ， 我 们 寻找 


(10-15) 


0.7 
0.6 





w* =argminE(w|x) 


在 许多 情况 下 ， 其 中 的 一 些 稍 后 我 们 将 看 到 ， 不 存在 解析 解 ， 而 需要 求助 于 迭代 优化 
方法 。 最 常用 的 方法 是 梯度 下 降 (gradient descent), 4 E(w) BER BAY n] flt eR AAT. 
有 偏 导 数组 成 的 梯度 向 量 (gradient vector) 

oE OE OE ] 
= Ex s | 
和 梯度 下 降 (gradient descent) 过 程 来 最 小 化 玉 。 该 方法 从 随机 问 量 w 开始 ， 并 在 每 一 步 沿 
该 梯度 相反 的 方向 更 新 w 








= E yy; t 
Aw; = naw Vi (10-16) 
TM = = Aw; (10-17) 


其 中 7 称 作 步 长 (stepsize) 或 学 习 因 子 (learning factor)， 决 定向 该 方向 移动 多 少 。 梯 度 上 
升 用 来 最 大 化 函数 ， 并 沿 着 梯度 的 方向 前 进 。 当 得 到 极 小 (或 极 大 ) 值 时 ， 导 数 等 于 0， 过 
程 终 止 。 这 表明 该 过 程 找到 了 一 个 最 近 的 极 小 值 ， 可 能 是 局 部 极 小 值 。 除 非 函 数 只 有 一 个 
极 小 值 ， 否 则 不 能 保证 找到 全 局 极 小 。 使 用 较 好 的 wy 值 也 是 至 关 重 要 的 。 如 果 它 太 小 ， 则 
收敛 可 能 太 慢 ; 而 太 大 可 能 导致 摆动 甚至 发 散 。 

在 本 书 中 ， 我 们 使 用 的 梯度 方法 是 简单 的 ， 并 且 相 当 有 效 。 然 而 ， 我们 要 记 住 ， 一 日 
确定 了 合适 的 方法 和 误差 函数 ， 就 可 以 使 用 多 种 可 能 技术 中 的 一 种 来 优化 模型 的 参数 来 最 
小 化 误差 函数 。 存 在 一 些 收敛 更 快 的 二 阶 方法 和 共 轿 梯度 ， 但 内 存 开 销 和 计算 量 更 大 。 像 
模拟 退火 和 遗传 算法 这 样 的 开销 更 大 的 方法 可 以 更 彻底 地 搜索 参数 空间 ， 而 不 太 依 赖 初始 
点 的 选择 。 
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10.7 ”逻辑 斯 请 判别 式 
10.7.1 两 类 问题 


TE 3E 5r vr) 51 X Clogistic diserimiunittn) HR, 不 是 对 类 条 件 密度 p(x|c;)， 而 是 对 它 
们 的 比率 建 模 。 让 我 们 还 是 从 两 类 问题 开始 ， 并 假定 对 数 似 然 比 是 线性 的 : 
$Px|Cuo a o = 
$e "V x + ws (10-18) 

当 类 条 件 密度 为 正 态 的 时 (参见 式 (10-13))， 这 种 假设 确实 成 立 。 但 是 ， 逻 辑 斯 详 判 
别 式 具 有 更 广泛 的 应 用 。 例 如 ，x 可 能 由 离散 属性 组 成 ,或 者 可 能 是 连续 和 离散 属性 的 
混合 。 

使 用 贝 叶 斯 规则 ， 有 





log 











Pila» _ . ile Pi) _ + s 
logitC PC; | x)) =log 3 ip» Pil» log SoG + log P w x+ (10-19) 
其 中 
EE" PCCi) + 
重新 整理 ， 又 得 到 S 形 函数 
y= Pie |») = (10-21) 


1+ exp[— (w'x+w)] 
作为 PG |x) fit. 
让 我 们 看 看 如 何 学 习 w 和 w。。 给 定 两 个 类 的 样本 X= 二 {x ，r'}， 其 中 如 果 exec M 
=], WR xECc; 则 x 二 0。 我 们 假定 给 定 x*，r 是 伯 努 利 分布 ， 具 有 式 (10-21) 计 算 的 概 
 y'=P(c, |x’): 
r' |x' ~ Bernoulli(y‘) 
这 里 ， 我 们 看 到 了 基于 似 然 的 方法 与 基于 判别 式 的 方法 的 区 别 : 对 于 前 者 ， 我 们 对 
p(x|Ci) 建 模 ; 对 于 后 者 ， 我 们 直接 对 ~|x 建 模 。 样 本 的 似 然 是 
Iw 9| = || Qo a— 297^ (10-22) 


我 们 知道 ， 当 我 们 有 一 个 需要 最 大 化 的 似 然 函数 时 ,我 们 总 是 将 它 转换 成 需要 最 小 化 
的 误差 图 数 E=—logl, FFA FERN, RMA 238 Ceross-entropy) : 
E(w ,w |X) =— »;r'logy' + (1 — rOlog(1 — y^) (10-23) 


由 于 SJEPRÉUEÉdEZETERJ. PTI AREA ROR. EAE RMR RDA. $ 
价 于 最 大 化 似 然 或 对 数 似 然 。 如 果 y=sigmoid(a)=1/(1+exp(—a)), M E B 5e 


— ij 


Ato, =— p a tek] ae 





a) Aya} = 3316-3025. jm led 





Aw, 一 一 1 之 -一 一 12, — ajf} (10-24) 


最 好 用 接近 于 0 的 随机 值 初始 化 w;。 通 常 ， 它 们 从 区 间 [ 一 0.01，0.01j] 中 均匀 地 
抽取 。 这 样 做 的 理由 是 ， 如 果 ww 的 值 很 大 ， 则 加 权 和 可 能 也 很 大 上 且 S 形 函数 可 能 饱和 。 


250 
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从 图 10-5 中 我 们 看 到 ， 如 果 初 始 权 重 接近 于 o0. WANE RK Be la], ABP RIES, HA 
进行 更 新 。 如 果 加 权 和 很 大 (小 于 一 5 或 大 于 十 5)， 则 S 形 函数 的 导数 几乎 为 0， 权 值 将 


不 会 更 新 。 For j=0, =, d 

伪 代 码 在 图 10-6 中 。 我 们 看 图 10-7 中 的 例 Et 
子 ， 其 中 输入 是 一 维 的 。 直 线 wz 十 rw 和 它 的 S Repeat 
形变 换 之 后 的 值 都 作为 学 习 和 迭代 的 函数 显示 。 For j=0, «+, d 
我 们 看 到 ， 为 了 得 到 输出 0 和 1. SJE AOZ T ere 
稳定 ， 这 通过 增 大 w 的 值 来 实现 ， 在 多 变量 的 ~a m 
情况 通过 增 大 | w | KXN. i 

一 旦 训练 完成 ， 并 且 我 们 得 到 了 最 终 的 w "nem 
和 wo。， 在 检验 阶段 ， 给 定 x， 我 们 计算 y= y+-sigmoid(o) 
sigmoid(w'x'+w), FEWR y'—0. 5 则 选择 For j—0, + d 
C1， 否 则 选择 c;。 这 意味 着 ,为 了 最 小 化 误 分 ran S 
类 数 ， 我 们 不 需要 一 直 学 习 直到 所 有 y 为 0 或 me 
1， 而 只 需要 学 习 直 到 y 都 小 于 或 大 于 0.5, Until 收敛 





即 学 习 到 在 决策 边界 的 正确 一 侧 。 如 果 超 过 该 
点 后 我 们 还 继续 学 习 ， 则 互 炉 将 继续 降低 。 图 10-6 对 于 具有 两 个 类 、 单 个 输出 ， 实 现 梯 
(|w: | 将 继续 增加 ， 硬 化 STB pM), 但 是 错 度 下 降 的 逻辑 斯 这 判 别 分 析 算 法 。 对 
误 分 类 数 将 不 会 减少 。 通常， 我 们 一 直 训 练 到 oe cote ee 
误 分 类 数 不 再 减少 (如 果 类 是 线性 可 分 的 ， 它 aa Seamer er eee R 
将 为 0)。 实 际 上 ， 在 达到 零 训 练 误差 之 前 提前 停止 是 一 种 正则 化 形式 。 因 为 以 权重 几 
乎 为 0 开始， 并 且 它 们 随 着 训练 继续 而 远离 0， 所 以 提前 停止 对 应 于 具有 更 多 接近 于 零 
权重 而 实际 上 参数 更 少 的 模型 。 





5 


图 10-7 对 于 一 元 两 类 问题 (用 。” 和 “X” 显 示 )， 样 本 上 10 次 、100 次 
和 1000 次 迭代 之 后 ， 直 线 wz 十 wo 和 S 形 限 数 输出 的 演变 
252 


| 注意 ， 尽 管 为 了 导出 判别 式 ， 我们 假定 类 密度 的 对 数 比 是 线性 的 ,但 是 我 们 直接 估 
253) 计 后 验 ， 而 不 显 式 地 估计 p(x|ci) 或 PCC;)。 
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10.7.2 多 类 问题 
现在 ， 让 我 们 推广 到 K>2 个 类 。 我 们 取 其 中 一 个 类 ， 例如 cs， 作为 参考 类 并 假定 
log oe eu = wx + wh (10-25) 
TH, A 
Ps 2 = expl w; x + wh | (10-26) 
其 中 wip = wi t log P(ci)/P(Ck) » 
我 们 看 到 


K—1 


Pic» _1—P(cx|x) S CEN 
2; P(Cx |x) P(Cx |x) 2, ex wis + we 





i=] 


l 





Ba fa m e a e — (10-27) 
+ >) expl wi x + wo] 
i=] 
并 且 还 有 
P(Cx |x) expl wx + wy | 
T 
>P(c;|x) = erp ore a! ij—1,«,K—1 (10-28) 


1+ > expl w;x + wyo | 
为 了 一 致 地 处 理 所 有 的 类 ， 我 们 记 


T 
yi = P(e; |x) = Alet | 


y expL w; x + wy | 


j=] 


这 称 作 软 最 大 (softmax) 函数 (Bridle 1990) 。 如 果 一 个 类 的 加 权 和 明显 大 于 其 他 类 的 加 权 
和 ， 则 通过 取 指 数 和 规范 化 推进 之 后 ， 它 对 应 的 y; 将 接近 于 1， 而 其 他 的 将 接近 于 0。 这 


样 ， 除 了 可 导 之 外 ， 它 就 像 取 最 大 一 样 ， 因 此 得 名 软 最 大 。 软 最 大 还 保证 2)y; — 1. 


让 我 们 看 看 如 何 学 习 参 数 。 在 K 二 2 个 类 的 情况 下 ， 每 个 样本 点 是 一 次 多 项 试验 取 
fü. BP r'|x'—MultkCl, y), HP y: 圭 P(C;|x')。 样 本 的 似 然 为 


1 — 1 K (10-29) 





Iw ,wio}; |X) = ILI y^ (10-30) 
Tfi] V 2 PR TC XC E H.H : 
ECUu swi): |X) =— 2) 2jrilogy: (10-31) 
我 们 再 次 使 用 梯度 下 降 。 如 果 y, = exp(ai)/ >) exp(a;) , WA 
OY; m MERE " 
m yi (Os — yj) (10-32) 


其 中 50,3 vC WyOKronecker)8, WR i=j 1231. MRiAS 它 为 0( 习 题 3)。 给 定 
> 六 一 1 ， 对 于 j= 二 1，*…，K， 有 如 下 更 新 方程 


Aw, -12, 2; t — x = 12, 2 ri y —34)€ 
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$103 


=n») | 27700, — yj Dari je z= 22, Cr = yx 


AU jo =y >) (r; — 8) 


注意 ， 由 于 软 最 大 中 的 规范 化 ，w; 和 uw; 
不 仅 受 EC MBM, TM ABS x ECi(i 关 站 的 
影响 。 更 新 判别 式 使 得 取 软 最 大 后 正确 的 类 具 
有 最 大 的 加 权 和 ， 而 其 他 类 的 加 权 和 尽 可 能 小 。 
伪 代 码 在 图 10-8 中 给 出 。 对 于 具有 3 个 类 的 二 
维 样本 ， 等 值 线 在 图 10-9 中 ， 而 判别 式 和 后 验 
概率 在 图 10-10 中 。 

在 检验 阶段 ， 我 们 计算 所 有 的 ，& 王 1， 
…， 天 ， 并 且 如 果 y= 二 maxiy:， 则 选择 c;。 我 
们 仍然 不 必 为 尽 可 能 极 小 化 互 箭 而 一 直 训 练 。 
我 们 只 需要 训练 直到 正确 的 类 具有 最 大 的 加 权 
和 ， 并 可 以 通过 检查 错误 分 类 数 ， 提 前 停止 
训练 。 

MBA de EG BE. EH NL A x 
与 参数 的 、 基 于 正 态 的 线性 判别 式 具 有 大 致 
相当 的 错误 率 (McLachlan 1992)。 当 类 条 件 
密度 不 是 正 态 的 时 ,或 者 当 它 们 不 是 单 峰 的 
时 ， 只 要 类 是 线性 可 分 的 ， 逻 辑 斯 详 判 别 式 
仍然 可 以 使 用 。 

当然 ， 类 条 件 密 度 的 比 不 局 限于 线性 的 
(Anderson 1982; McLachlan 1992) 。 假 定 一 个 
二 次 判别 式 ， 我 们 有 


0 0.5 l L3 2 





(10-33) 


For i=l; =y K 
For j=0, vor, d 
wi <r and(0. 01, 0.01) 


y; *-expCo;) / X explo) 
k 


Fori=1, =, K 
For j=0, **, d 
Aw, «Aw + Cri — yx 
Fori=1, «, K 
For j=0, **, d 
wij *—wi; + Awi 


Until 收敛 


图 10-8 XF K>2 个 类 ， 实 现 梯 度 下 降 的 逻辑 


斯 说 判别 式 算 法 。 为 了 一 般 性 ， 对 于 任 
Et y= 





图 10-9 对 于 一 个 具有 3 PRAY AE TH, Er A Hal] SA He BA HF o 
细 线 是 gi (x) —0, T FE R fe AK KAY BE PR a FS Bl 8] 21 A 
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gi(X1, X2) 





P(Cjx,, Xp) 





图 10-10 对 于 图 10-9 中 的 相同 样本 ， 线 性 判别 式 ( 上 ) 和 软 最 大 后 的 后 验 概率 (下 ) 


plc; 
bG | cx? 
对 应 于 并 推广 具有 不 同 协 方差 矩阵 、 满 足 多 元 正 态 类 条 件 分 布 的 参数 判别 式 。 当 a 很 大 
时 ， 与 化 简 ( 正 规 化 ) 允 一样 ， 可 以 通过 只 考虑 它 前 面 的 特征 向 量 ， 对 W; 做 同样 的 事 。 

正如 10.2 厕所 讨论 的 ， 可 以 用 基本 变量 的 任意 指定 函数 作为 x 变量 。 例如， 我 们 可 
以 把 判别 式 写 成 非 线 性 基 函 数 的 线性 和 


lop m = wlx) + wo (10-35) 
其 中 , 6ER, nTUUB EAE RARUS. MAARRE, xXPRÍE $E Rm 
(multilayer perception) (第 11 Æ), m SÆ AŠ di Eee HEAR AE RH. E HE e HE AE PERCHE 


jt Rp E OU ERE 42 w) X BH HK (radial basis function) ($ 12 章 )。 我 们 甚至 可 以 使 用 完全 非 参 数 
的 方法 ， 如 Parzen 窗口 (第 8 音 )。 


log 一 X Wx + wi x + wi (10-34) 


10.8 回归 判别 式 
对 于 回归 ， 概 率 模型 是 
P= y +e 
HP e~N O, 00. WR rcio, 1}, MEH SI PRM, yH HERR T YA EA K i. 
性 模型 和 两 个 类 ， 有 


y! = sigmoid( w x' + w) l 


E 1+ exp| — Cuw' x' + ww) ] 
于 是 ， 假定 rix~N(y, a ys 则 回归 中 的 样本 似 然 为 


lCw,w |X) = ll ap — | 


2g* 





l 
J 2x? 
最 大 化 对 数 似 然 是 最 小 化 误差 的 平方 和 : 
E(w ,ws |X) = 12 (P 一 y) 
使 用 梯度 下 降 ， 得 到 
Aw =>) (r' —M y Cl — yx 
Aw, =>, (r — y0y (0— y) 
当 存 在 K>? 个 类 时 ， 也 可 以 使 用 这 种 方法 。 概 率 模 型 是 


r = y +e 
其 中 8 一 Ngk(0，oc Ix)。 为 每 个 类 假定 一 个 线性 模型 ， 有 
TL a UNUM, mE -— 
yi = sigmoid( w; x‘ + wi) Ure tee ee 


于 是 ， 样 本 的 似 然 为 | 
lw; swislx» = [[ i E -| 


mer Cn | 
EE p 2g! 
而 误差 函数 为 


E({w ,wio}; |X) EX Slr -y' = => (ri — yi)? 
对 于 i 二 1，…，K， 更 新 方程 为 
Aw; =7 >) (4 — yy — Hx 


Awo =7 >) (ri — yx — y) 
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(10-36) 


(10-37) 


(10-38) 


(10-39) 


(10-40) 


(10-41) 


(10-42) 


(10-43) 


(10-44) 


(10-45) 


注意 ， 在 这 样 做 时 ， 我 们 并 未 使 用 y; 中 的 一 个 为 1， 其 余 为 0， 或 pa 二 1 的 信息 。 
由 于 输出 是 类 后 验 概率 的 估计 ， 所 以 式 (10-29) 的 软 最 大 函数 使 我 们 可 以 加 入 这 些 附加 信 


息 。 在 天 >2 的 情况 下 ， 使 用 S 形 函数 ,, 我们 像 对 待 独立 函数 一 样 对 待 y;。 


还 要 注意 ， 对 于 给 定 的 类 ， 如 果 我 们 使 用 回归 方法 ， 则 更 新 将 进行 直到 正确 的 输出 为 
1， 其 余 为 0 时 才 人 停止。 事实 上 ， 这 是 不 必要 的 ， 因 为 在 检验 时 ， 我 们 只 是 选择 最 大 的 。 


训练 直到 正确 的 输出 大 于 其 他 输出 就 足够 了 ， 这 正 是 软 最 大 函数 所 做 的 。 


因此 ， 当 类 不 是 互 斥 的 和 穷 举 的 时 ， 也 就 是 说 ， 对 于 一 个 x*， 所 有 的 x 可 能 都 为 0， 即 x 
不 属于 任何 一 个 类 ， 或 者 当 类 重 倒 时， 多 个 x 可 能 为 1， 这 种 具有 多 个 S 形 函数 的 方法 更 可 取 。 
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10.9 学 习 排 名 


排名 (ranking) 是 机 器 学 习 的 一 个 应 用 领域 ， 它 不 同 于 分 类 和 回归 ， 可 以 说 是 介 于 二 
者 之 间 。 不 像 分 类 和 回归 有 输入 x' 和 期 望 的 输出 x**， 排 名 要 求 我 们 把 两 个 或 多 个 实例 放 在 
正确 次 序 中 (Liu 2011). 

例如 ， 假 设 x* 和 x" 代 表 两 部 电影 ， 并 且 用 户 喜 欢 uw BUS Kv (在 这 种 情况 下 ， 我 们 
需要 给 类 似 于 的 电影 较 高 的 排名 )。 这 记 作 过 mr”*”。 我 们 学 习 的 不 是 判别 式 或 回归 函数 ， 
而 是 一 个 评分 函数 (score function)g(x10)， 并 且 重 要 的 不 是 gx" |00 fll glx’ 109) 的 绝对 数 
值 ， 而 是 需要 给 x" 一 个 比 x* 更 高 的 分 数 。 也 就 是 说 ， 对 于 所 有 这 样 的 (uw，v) 对 ， 都 应 满 
E gix"l002gCQx' |0), 

与 通常 一 样 ， 假 定 某 个 模型 g(。)， 并 优化 它 的 参数 6， 使 得 所 有 的 排名 约束 都 满足 。 
例如 ， 为 了 对 用 户 尚 未 看 过 的 电影 进行 推荐 ， 我 们 选择 具有 最 高 得 分 的 电影 ， 

选择 ,如果 g(x" |9) = max, 
g(x |0) 

有 时 ， 我 们 想 要 最 高 & 个 的 列表 ， 而 不 仅仅 是 一 个 最 高 的 。 

这 里 ， 我 们 可 能 注意 到 排名 的 长 处 和 差异 。 如 果 用 户 把 他 们 看 过 的 电影 评价 为 “喜欢 ” 
或 “不 喜欢 ”， 则 这 将 是 一 个 两 类 分 类 问题 ， 可 以 使 用 分 类 器 。 但 是 体验 会 有 细微 的 差别 ， 
二 元 评级 是 很 难 的 。 另 一 方面 ， 如 果 人 们 按 等 级 (例如 1 一 10) 来 评价 自己 对 电影 的 喜爱 ， 
则 这 将 是 一 个 回归 问题 ， 但 这 样 的 绝对 数值 很 难 指派 。 对 人 来 说 ， 更 自然 、 更 容易 的 方法 
是 说 在 他 们 看 过 的 两 部 电影 中 ， 他 们 更 喜欢 哪 一 个 ， 而 不 是 一 个 是 或 否 的 决定 或 数值 。 

排名 有 许多 应 用 。 例 如 ， 在 搜索 引擎 中 ， 给 定 一 个 查询 ， 我 们 要 检索 最 相关 的 文档 。 
如 果 我 们 检索 和 显示 当前 的 前 十 个 候选 ， 然 后 用 户 点 击 第 三 个 ， 跳 过 前 两 个 ， 我 们 就 知道 
第 三 个 的 排名 应 该 高 于 第 一 和 第 二 个 。 这 种 点 击 日 志 用 来 训练 排名 器 。 

有 时 ， 重 排名 利用 附加 信息 来 改善 排名 器 的 输出 。 例 如 ， 在 语音 识别 中 ， 可 以 先 用 声 
学 模型 来 产生 可 能 句子 的 有 序列 表 ， 然 后 可 以 利用 语言 模型 的 特征 对 N 个 最 好 的 候选 重 
新 排名 ， 这 样 可 以 显著 提高 准确 率 (Shen All Joshi 2005), 

排名 器 可 以 用 许多 不 同 的 方式 训练 。 对 于 所 有 的 (x，z) 对 ， 其 中 一 妆 普 ， 如 果 
g(z10) 盖 5(t10)， 则 有 一 个 错误 。 一 般 来 说 ， 我 们 没有 和 个 (uw，wv) 对 的 全 序 ， 而 只 有 
它 的 一 个 子 集 上 的 排序 ， 从 而 定义 一 个 偏 序 。g (x”19) 与 g(x" 109) 的 差 的 和 构成 误差 : 

E(w |{r*sr°}) = >) Ce(x’ 10) — gXGe* |0) 1, (10-46) 


其 中 ， 如 果 alo M a 等 于 a， 否 则 a, 等 于 0, 
假定 我 们 像 本 章 前 面 所 做 的 那样 使 用 线性 模型 : 


g(x|w) = w'x (10-47) 
因为 我 们 不 关心 绝对 的 数值 ， 所 以 我 们 不 需要 w。。 式 (10-46) 中 的 误差 变 成 
E(Gw| (r7 D = Sw T(r a" hy (10-48) 


我 们 可 以 使 用 梯度 下 降 对 w HERE. MEE <P, Hh gon 17 ge 10, 
我 们 做 一 个 小 更 新 ， 


Aw, ——$ 9E. — wr — yn), = lad (10-49) 


选择 w， 使 得当 实 例 投影 到 w 上 时 ， 可 以 得 到 正确 的 排序 。 在 图 10-11 中 ， 我 们 看 到 
实例 数据 和 学 习 得 到 的 投影 方向 。 我 们 发 现 ， 排 名 的 微小 变化 可 能 导致 w 的 大 变化 。 
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图 10-11 排名 问题 及 其 解 的 样 例 。 数 据点 用 “十 2 表示， 而 在 它们 旁边 的 数字 表示 排名 ， 其 中 1 是 最 
高 排名 。 这 里 ， 我 们 有 全 序 。 箭 头 表 示 学 习 得 到 的 w. Æa) b P, 显示 两 个 不 同 的 排 
名 问题 和 它们 的 对 应 解 
关于 排名 的 误差 函数 和 梯度 下 降 方 法 及 其 在 实践 中 的 应 用 ， 见 Burges 等 2005, Shin 
All Josh 2005。 有 上 时， 为 了 得 到 确信 的 决策 ， 当 六 闪 普 时 ， 我 们 要 求 输出 不 仅 较 大 ， 而 且 还 
BAH MR, Bü. gG"1001-- g(x" |00, RME 13. 11 Tre HABLA ^E 2J HE HT. 
我 们 将 看 到 一 个 这 样 的 例子 。 


10. 10 注释 

由 于 其 简单 性 ， 线 性 判别 式 是 模式 识别 使 用 最 多 的 分 类 絮 (Duda，Hart 和 Stork 
2001; McLachlan 1992) 。 我 们 在 第 4 章 讨论 了 具有 公共 协 方差 矩阵 的 高 斯 分 布 情况 ， 在 
第 6 章 讨论 了 费 希 尔 线性 判别 式 ， 并 在 本 章 讨 论 了 逻辑 斯 详 判 别 式 。 在 第 11 章 ， 我 们 将 
讨论 感知 器 ， 它 是 线性 判别 式 的 神经 网 络 实现 。 在 第 013 章 ， 我 们 将 讨论 支持 向 量 机 ， 这 
是 男 一 种 类 型 的 线性 判别 式 。 

逻辑 斯 谤 判别 式 更 详细 的 讨论 在 Anderson 1982 和 McLachlan 1992 中 。 逻 辑 斯 详 (S 
TE ) pK Bt FE a) XT Be AY et. HE 1A BS A EUER HP ERIE X16 4€ (canonical link)。 软 最 大 是 它 对 多 元 
正 态 抽样 的 泛 化 。 关 于 广义 线性 模型 (generalized linear model) 的 更 多 信息 在 McCullogh 
和 Nelder 1989 中 。 

排名 已 成 为 机 器 学 习 的 一 个 主要 应 用 领域 ， 因 为 它 用 于 搜索 引擎 、 信 息 检 索 和 目 然 语 
言 处 理 。 重 要 应 用 和 机 器 学 习 算法 的 广泛 评述 在 Liu 2011 中 。 我 们 这 里 讨论 的 模型 是 线性 
模型 。 在 13. 11 节 ， 我们 讨论 如 何 使 用 核 机 器 学 习 排 名 器 ， 那 里 我 们 使 用 允许 不 同 的 相似 
性 度量 整合 的 核 得 到 非 线 性 模型 。 

使 用 非 线 性 基 沙 数 推广 线性 模型 是 一 种 历史 悠久 的 想法 。 我 们 将 讨论 多 层 感 知 右 (第 
11 章 ) 和 径 向 基 函 数 (第 12 章 )， 那 里 ， 基 函数 的 参数 也 可 以 在 学 习 判 别 式 时 由 数据 学 习 。 
支持 向量 机 (第 13 章 ) 使 用 由 这 些 基 哺 数 形成 的 核 限 数 。 


10.11 Sa 
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co 


co 


a. sin(x) 

b. exp( —Gr, —a)"/c 
c. exp — | x—a]|?/c 
d. logCz;) 

e. lnc) 

f. 


lazy, base) 


. 对 于 图 10-2 的 二 维 情况 ， 证 明 式 (10-4) 和 和 式 (10-5) 。 


证 明 软 最 大 y% 一 exp(ai)/ >) exp(w) 的 导 函 数 是 3 y;/ 9 4; 二 yi(65 一 y;)， 其 中 如 果 i= 


j Wo; S l, 否则 6; 为 0, 


. 令 K—2, 证 明 使 用 两 个 软 最 大 输出 等 于 使 用 一 个 S 形 输出 。 


expo; I 1 1 
expo, + expo» 1+exp(a, 一 By 1 + exp(— Coi — 02)) 
=sigmoid(o; — 02) 
Glin, WMRo=wix, WA 
expu; x 


JE 5 SRS Le TY | ee 
expw |x + expw; x 


= sigmoid( wi x — w, x) = sigmoid( w' x) 


EH o=w m~m y;—l—y. 


. 在 式 (10-34) 中 ， 如 何 学习 W,? 


解 : 例如 ， 如 果 有 两 个 输入 ci 和 zz， 则 有 


play 3T2 ic) 


px r | cg) =W; zi T Wiz Xi Xx + Wie riu TWa x? 
1 942 


log 


+ Wi xi + wat: + Wi 
于 是 ， 可 以 使 用 梯度 下 降 ， 并 关于 任意 的 Wi 求 导 ， 计 算 更 新 规则 : 
AWi = n>) Gri — yy) zit 


. 在 像 式 (10-34) 中 那样 使 用 二 次 (或 更 高 阶 ) 判 别 式 时 ， 如 何 保持 方差 受 控 ? 


在 梯度 下 降 时 ， 对 所 有 的 c EAA m 意味 什么 ? 

解 : 对 所 有 的 z, 使 用 一 个 单一 的 意味 着 以 相同 的 尺度 做 更 新 ， 而 这 又 意味 着 ， 
所 有 x 在 同一 尺度 下 。 如 果 不 是 ， 规 范 化 所 有 的 xz; 是 一 个 好 主意 。 例如， 训练 前 做 z 
规范 化 。 注 意 ， 我 们 需要 保存 所 有 输入 的 缩放 参数 ， 以 便 以 后 还 可 以 对 检验 实例 做 相 
同 的 缩放 。 


. 在 单 变量 情况 下 ， 对 于 如 图 10-7 中 的 分 类 ，w 和 ws 对 应 于 什么 ? 


解 : 直线 的 斜率 和 截 距 ， 此 后 要 提供 给 S 形 函数 。 


. 假设 对 于 单 变 量 r, rE, ORF. mM r<2 $ r>4 属于 cs, 。 如 何 使 用 线性 判别 式 


把 这 两 个 类 分 开 ? 
fe: 定义 一 个 附加 变量 zx 硅 x* 并 在 (z，zx) 空 间 使 用 线性 判别 式 wz 十 wi 工 十 wo。， 这 
对 应 于 r 空间 的 二 次 判别 式 。 例 如 ， 可 以 手工 地 写 
Ci BX(r—3»)-—1z«0 
al Cs 否则 
或 使 用 S JE ARO TE iU y CS LR 10-12); 
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Cı wR sigmoid((z —3)* —1) < 0.5 
Cs 否则 





0 l 2 3 4 5 6 
图 10-12 使 用 S 形 函数 之 前 和 之 后 的 二 次 判别 式 。 边 界 在 判别 式 为 0 或 S 形 盟 数 值 为 0. 5 处 


或 者 可 以 在 xz 空间 使 用 两 个 线性 判别 式 ， 一 个 在 2 分开， 男 一 个 在 4 分 开 ， 然 后 ORE 
们 。 这 种 分 层 的 线性 判别 式 将 在 第 11 章 讨论 。 
10. 对 于 图 10-11 的 样本 数据 ， 定 义 排名 使 得 线性 模型 不 能 够 学 习 它 们 。 解 释 如 何 推广 该 
265 模型 ， 使 得 它们 可 以 学 习 。 
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讨论 为 各 种 应 用 训练 多 层 感 知 咒 的 向 后 传播 算法 。 


11.1 引言 


人 工 神经 网 络 模 型 ， 其 中 之 一 是 本 章 讨论 的 感知 器 ， 其 灵感 源 于 人 脑 。 旨 在 理解 人 脑 
的 功能 ， 并 朝 着 这 一 目标 努力 的 认 知 科学 家 和 神经 学 家 (Posner 1989) 构 建 了 人 脑 的 神经 网 
络 模型 ， 并 开展 了 模拟 研究 。 

然而 ， 在 工程 上 ， 我们 的 目标 不 是 理解 人 脑 的 本 质 ， 而 是 构建 有 用 的 机 器 。 我 们 对 人 
工 神 经 网 络 (artificial neural network) 感 兴趣 ， 因 为 我 们 相信 它们 可 能 帮助 我 们 建立 更 好 
的 计算 机 系统 。 人 脑 是 一 种 信息 处 理 装 置 ， 具有 非凡 的 能 力 并 在 许多 领域 ， 例如， 视觉 、 
语音 识别 和 学 习 ， 都 超过 了 当前 的 工程 产品 。 如 果 在 机 需 上 实现 ， 这 些 应 用 显然 都 具有 经 
济 效益 。 如 果 我 们 能 够 理解 人 脑 如 何 实现 这 些 功 能 ， 那 么 我 们 就 可 以 用 形式 化 算法 定义 这 
些 任 务 的 解 并 在 计算 机 上 实现 它们 。 

人 脑 与 计算 机 很 不 相同 。 计 算 机 通常 只 有 一 个 处 理 器 ， 而 人 脑 却 包含 大 量 (10 个) 并 
行 操作 的 处 理 单元 ， 称 作 神 经 元 (neuron) 。 尽 管 细节 尚 不 清楚 ， 但 是 人 们 相信 这 些 处 理 单 
元 比 计算 机 中 的 处 理 器 简单 得 多 且慢 得 多 。 使 人 脑 不 同 寻 篆 且 被 认为 提供 了 其 计算 能 力 的 
是 连通 性 。 人 脑 的 神经 元 具有 连接 ， 称 作 突 触 (synapse)， 连 接 到 大 约 10' 个 其 他 神经 元 ， 
所 有 神经 元 都 并 行 地 操作 。 在 计算 机 中 ， 处 理 器 是 主动 的 ， 而 存储 是 分 散 和 被 动 的 ， 但 是 
我 们 认为 在 人 脑 中 ， 处 理 和 存储 都 在 网 络 上 分 布 。 处 理由 神经 元 来 做 ， 而 记忆 在 神经 元 之 
间 的 突 触 中 。 


11.1.1 理解 人 脑 
根据 Marr(1982)， 理 解 一 个 信息 处 理 系统 具有 三 个 层面 ， 称 作 分 析 层 面 (level of a- 


nalysis) : 

1) + 3:38 # (computational theory) 对 应 于 计算 目标 和 任务 的 抽象 定义 。 

2) 表示 和 算法 (representation and algorithm) 是 关于 输入 与 输出 如 何 表 示 以 及 从 输入 
到 输出 变换 的 算法 说 明 。 

3) 硬件 实现 (hardware Implementation) 是 系统 的 实际 物理 实现 。 

一 个 例子 是 排序 : 计算 理论 是 对 给 定 的 元 素 集合 排序 。 表 示 可 以 使 用 整数 ， 而 算法 可 
以 是 Quicksort( 快 速 排序 ) 。 编 译 后 ， 用 二 进 制 表示 的 特定 处 理 机 排序 整数 的 可 执行 代码 
是 一 种 硬件 实现 。 

基本 思想 是 ， 对 于 相同 的 计算 理论 ， 可 以 有 多 种 表示 和 在 相应 表示 上 操纵 符号 的 算 
法 。 类 似 地 ， 对 于 给 定 的 表示 和 算法 ， 可 以 有 多 种 硬件 实现 。 我 们 可 以 使 用 众多 排序 算法 
中 的 一 种 ， 并 且 即 使 相同 的 算法 也 可 以 在 使 用 不 同 处理 器 的 计算 机 上 编译 ， 导 致 不 同 的 硬 
件 实现 。 
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考虑 另 一 个 例子 ,“6”、“VIT AS11007 FEB 6 的 不 同 表示 。 加 法 的 不 同 算法 依赖 于 所 使 
用 的 表示 。 数 字 计 算 机 使 用 二 进 制 表 示 ， 并 具有 这 种 表示 的 加 法 电路 ， 这 是 一 种 特殊 的 硬 
件 实现 。 在 算盘 上 ， 数 用 不 同 的 方法 表示 ， 并 且 加 法 对 应 于 不 同 的 指令 集 ， 这 是 为 一 种 硬 
件 实现 。 当 我 们 在 大 脑 中 将 两 个 数 相 加 时 ， 我 们 使 用 另 一 种 表示 和 一 种 适合 于 这 种 表示 的 
算法 ， 这 用 神经 元 实现 。 但 是 ， 所 有 不 同 的 硬件 实现 (例如 ， 我们、 算盘 和 数字 计算 机 ) 都 
实现 了 相同 的 计算 理论 一 一 加 法 。 

经 典 的 例子 是 自然 和 人 工 飞 行 器 之 间 的 不 同 。 麻 誉 拍 打 它 的 双翼 ;商用 飞机 并 不 担 打 
机 辟 ， 而 是 使 用 喷气 引擎 。 麻 省 和 飞机 是 两 种 硬件 实现 ， 为 不 同 的 目的 而 构建 ， 满 足 不 同 
的 约束 。 但 是 ， 它 们 都 实现 了 相同 的 理论 一 一 空气 动力 学 。 

人 脑 是 学 习 或 模式 识别 的 一 种 硬件 实现 。 如 果 从 这 种 特定 的 实现 ， 我 们 可 以 做 逆 工 
程 ， 提 取 人 脑 使 用 的 表示 和 算法 ， 并 且 如 果 我 们 能 够 从 中 获得 计算 理论 ， 则 我 们 可 以 使 用 
另 一 种 表示 和 算法 ， 然 后 得 到 更 适合 我 们 的 含义 和 约束 的 硬件 实现 。 我 们 和 布 望 我 们 的 实现 
价格 低廉 、 快 速 且 更 准确 。 

当初 构建 飞行 器 时 ， 直 到 发 现 空 气动 力学 之 前 ， 我 们 一 直 在 尝试 构建 看 似 上 去 非常 像 
鸟 的 飞行 器 。 与 此 相同 ， 直 到 我 们 发 现 智能 的 计算 理论 之 前 ， 早 期 尝试 构建 具有 大 脑 能 力 
的 结构 看 上 去 将 很 像 大 脑 ， 是 具有 大 量 处 理 单元 的 网 络 。 因 此 可 以 说 ,就 理解 大 脑 而 言 ， 
当 我 们 研究 人 工 神经 网 络 时 ， 我 们 处 于 表示 和 算法 层面 。 

正如 羽毛 与 飞行 不 相关 一 样 ， 述 早 我 们 会 发 现 神经 元 和 突 触 与 智能 并 无 关系 。 但 是 ， 
在 此 之 前 ,我们 对 理解 大 脑 机 能 感 兴趣 还 有 为 一 个 原因 ， 这 种 原因 与 并 行 处 理 有 关 。 





11. 1.2 神经 网 络 作 为 并 行 处 理 的 典范 


H 20 世纪 80 年 代 以 来 ， 具 有 数 以 千 计 处 理 器 的 计算 机 系统 已 经 商品 化 。 然 而 ， 用 于 
这 种 并 行 结构 的 软件 并 不 像 硬件 发 展 这 么 快 。 原 因 是 到 目前 为 止 ， 计算 理论 几乎 都 基于 目 
行 的 、 单 处 理 器 机 器 。 我 们 不 能 有 效 地 使 用 并 行 机 ， 因 为 我 们 不 能 有 效 地 对 它们 编程 。 

主要 有 两 种 并 行 处理 (parallel processing) 范 型 : 在 单 指令 多 数据 CSIMD) 机 上 ， 上 所 有 
的 处 理 器 都 执行 相同 的 指令 ， 但 是 在 数据 的 不 同 部 分 上 执行 。 在 多 指令 多 数据 (MIMD) 机 
上 ， 不 同 的 处 理 器 可 以 在 不 同 的 数据 上 执行 不 同 的 指令 。SIMD 机 容易 编程 ， 因 为 只 需要 
写 一 个 程序 。 然 而 ， 问 题 很 少 具有 这 么 有 规律 的 结构 ， 使 得 它们 能 够 在 SIMD 机 上 并 行 。 
MIMD 机 更 通用 ,但 是 为 每 个 处 理 器 编写 单独 的 程序 并 不 是 一 件 容 易 的 任务 。 其 他 问题 涉 
及 同步 、 处 理 器 之 间 的 数据 传送 等 。SIMD 机 也 更 容易 构建 ， 并且 如 果 它 们 都 是 SIMD 
机 ， 则 可 以 构建 具有 更 多 处 理 器 的 机 器 。 在 MIMD 机 中 ， 处 理 需 更 加 复杂 ， 并 且 还 要 为 
处 理 器 任意 地 交换 数据 构建 更 复杂 的 通信 网 络 。 

现在 ， 假 设 有 一 台 机 器 ， 其 中 处 理 器 比 SIMD 处 理 器 复杂 一 点 ， 但 没有 MIMD 处 理 
器 复杂 。 假 定 有 一 些 简 单 的 处 理 器 ， 具 有 少量 局 部 存储 器 ， 可 以 存放 一 些 参数 。 每 个 处 
理 器 实现 一 个 固定 的 函数 ， 并 且 执 行 与 SIMD 处 理 器 一 样 的 指令 。 但 是 通过 将 不 同 的 值 
装 和 人 局 部 存储 器 ， 它 们 可 以 做 不 同 的 事情 ， 并 且 整 个 操作 可 以 在 这 些 处 理 器 上 分 布 执 
行 。 这 样 ， 我 们 将 有 一 台 可 以 称 作 神 经 指令 多 数据 (NIMD) 机 的 机 器 ， 其 中 每 个 处 理 器 
对 应 于 一 个 神经 元 ， 局 部 参数 对 应 于 它 的 突 触 权重 ， 而 整个 结构 是 一 个 神经 网 络 。 如 果 
每 个 处 理 器 实现 的 功能 是 简单 的 ， 并 且 局 部 存储 器 很 小 ， 则 许多 这 样 的 处 理 器 可 以 放 在 
=P its Fs 
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现在 的 问题 是 将 任务 分 布 到 这 种 处 理 器 的 网 络 中 并 确定 局 部 参数 的 值 。 这 是 学 习 进行 
的 地 方 : 如 果 这 样 的 机 器 可 以 从 实例 学 习 ， 则 我 们 自己 不 需要 为 这 种 机 器 编制 程序 和 决定 
参数 值 。 

这 样 ， 人 工 神经 网 络 是 一 种 我 们 可 以 使 用 当前 技术 构建 的 、 利 用 并 行 硬件 的 方法 。 多 
亏 学 习 一 一 它们 不 需要 编程 。 因 此 ， 我 们 也 不 必 费 神 为 它们 编程 。 

在 本 章 ， 我 们 讨论 这 种 结构 和 如 何 训 练 它们 。 记 住 ， 人 工 神经 网 络 操作 是 一 种 数学 函 
数 ， 它 们 可 以 在 串 行 计算 机 上 实现 ， 并 且 训 练 网 络 与 我 们 在 前 面 章 节 中 讨论 的 统计 学 技术 
并 无 太 大 差别 。 仅 当 我 们 有 并 行 硬件 且 仅 当 网 络 太 大 ， 不 能 在 串 行 机 上 快速 模拟 时 ， 考 虑 
这 些 操 作 在 简单 处 理 单元 的 网 络 上 进行 是 有 意义 的 。 


11.2 RARS 


感知 器 (perceptron) 是 基本 处 理 元 件 。 它 具有 输入 ， 其 输入 可 能 来 自 环 境 或 者 可 以 是 
其 他 感知 器 的 输出 。 与 每 个 输入 x; ER 
G 王 1，…，d) 相 关联 的 是 一 个 连接 权重 
(connection weight) 或 突 触 权重 (synaptic 
weight) w; ER， 而 在 最 简单 情况 下 ， 输 
出 y 是 输入 的 加 权 和 (参见 图 11-1): 





d 
y= >) wr; wo (11-1) 
j=1 


其 中 w ERIRE, CON. Ñ 
常 把 它 作为 一 个 来 自 附 加 的 偏 倚 单 元 (bi- 
as unit)zo 的 权重 ， 而 zo 总 是 为 十 1。 我 们 下 Xi x x) 


可 以 把 感知 器 的 输出 写成 点 积 图 11-1 简单 感知 器 ，zj(j 二 1，…，d) 是 输入 单元 ， 
y= wx (11-2) zo 是 其 值 总 是 为 1 AY Od A A y 是 输出 单 
其 中 w = [ w w, ace Wi JT 和 JU. zj 是 从 工 到 输出 的 有 回 连接 的 权重 


x—[l, zis **. xa] 是 增 广 向 量 (augmented vector), ， 包 含 偏 傈 权重 和 输入 。 

在 检验 时 ， 对 于 输入 x， 我 们 使 用 给 定 的 权重 w 计算 输出 >。 为 了 实现 给 定 的 任务 ， 
我 们 需要 学 习 系 统 的 参数 权重 w， 使 我 们 可 以 产生 给 定 输 入 的 正确 输出 。 

当 d=1 H x 通过 输入 单元 由 环境 馈 和 人 时， 有 

y = wr + w 

这 是 以 w 为 斜率 、reo 为 截 距 的 直线 方程 。 这 样 ， 这 种 具有 一 个 输入 和 一 个 输出 的 感知 需 
可 以 用 来 实现 线性 拟 合 。 使 用 多 个 输入 ， 直 线 变 成 了 ( 超 ) 平 面 ， 而 具有 多 个 输入 的 感知 天 
可 以 实现 多 元 线性 拟 合 。 给 定 样 本 ， 通 过 回归 可 以 找到 参数 w (参见 5. 8 7). 

式 (11-1) 定 义 的 感知 器 定义 了 一 个 超 平 面 ， 因 此 可 以 用 来 将 输入 空间 划分 成 两 部 分 : 
y 值 为 正 的 半 个 空间 和 y 值 为 负 的 半 个 空间 (参见 第 10 章 )。 通 过 用 它 实 现 线性 判别 困 数 ， 
检查 输出 的 符号 ， 感 知 器 可 以 将 两 个 类 分 开 。 如 果 和 定义 CC"，) 为 阅 值 函数 (threshold func- 


tion) 





u ] mka0 , 
s(a) — 0 x (11-3) 
那么 ， 如 果 (Cam zx) 二 0 则 选择 cy ， 否 则 选择 C;。 


记 住 ， 使 用 线性 判别 式 假 定 类 是 线性 可 分 的 。 也 就 是 说 ， 假 定 可 以 找到 分 开 x Ec 和 
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x'ECs 的 超 平面 w'x 二 0。 如 果 在 后 一 阶段 需要 后 验 概率 (例如 ， 为 了 计算 风险 )， 需 要 在 
输出 上 使 用 S 型 函数 


o =w x 


y =sigmoid(o) = (11-4) 


] 
1+exp|— w'x] 
当 存在 K>2 个 输出 时 ， 有 K 个 感知 器 ， 每 个 都 具有 权重 向 量 w, (BLA 11-2) 


d 
— =; T 
Ni = >) wx; + wi —= w; X 
j=1 


y =Wx (11-5) 
其 中 wy 是 从 输入 c; Sf HB y; 的 连接 
权重 。W 是 w; WK X(d+1) wR, 
其 行 是 K 个 感知 器 的 权重 问 量 。 当 
用 于 分 类 时 , 在 检验 阶段 ， 如果 
i EORR 则 选择 C;。 
每 个 感知 器 是 它 的 输入 和 突 触 权 
重 的 局 部 图 数 。 在 分 类 中 ， 如 果 需 要 
后 验 概率 (而 不 仅 是 获胜 类 的 编码 ) 并 
使 用 软 最 大 ， 则 还 需要 所 有 输出 的 
值 。 将 其 作为 神经 网 络 实现 导致 一 个 图 11-2 K 个 并 行 的 感知 器 。z; (j= 二 0，…，d) 是 输入 ，y 





两 阶段 过 程 ， 其 中 第 一 阶段 计算 加 权 (i 二 1，…，K) 是 输出 。wy 是 从 输入 二 到 输出 > 
一 ; 的 连接 权重 。 每 个 输出 都 是 输入 的 加 权 和 。 当 用 
9 —— xi o H 
"——— ÓÀ 于 K 类 分 类 问题 时 ， 有 一 个 后 处 理 ， 它 选择 最 大 
我 们 仍然 将 其 表示 成 单个 输出 层 ， 的 ， 或 者 需要 后 验 概率 时 选择 软 最 大 
0; =w; X 
das em (11-6) 
> expo, 
k 


前 面 讲 过 ， 通 过 定义 辅助 输入 ， 例 如， 定义 r = tis t x2. x; 2, 22(10.2 F), 
线性 模型 也 可 以 用 于 多 项 式 近 似 。 对 于 感知 畜 也 可 以 这 样 做 (Durbin 和 Rumelhart 1989), 
在 11.5 节 ， 我 们 将 看 到 多 层 感知 器 ， 那 里 非 线性 函数 将 在 “隐藏 > 层 从 数据 中 学 习 ， 而 不 
是 假定 一 个 先 验 。 

第 10 章 讨论 的 线性 判别 式 的 任何 方法 都 可 以 用 来 离线 地 计算 w G1. n. K), 5 
后 插入 网 络 中 。 这 包括 具有 公共 协 方差 矩阵 的 参数 方法 、 逻 辑 斯 详 判 别 式 、 回 归 判 别 式 和 
支持 向 量 机 。 在 某 些 情况 下 ， 在 训练 开始 时 我 们 并 没有 全 部 样本 ， 随 着 样本 的 到 来 ， 我 们 
需要 迭代 地 更 新 参数 。 我 们 将 在 11. 3 节 讨 论 这 种 在 线 学 习 。 

式 (11-5) 定 义 了 一 个 从 4 维 空间 到 K 维 空 间 的 变换 ， 如 果 K 二 4， 它 也 可 以 用 于 
维度 归 约 。 我 们 可 以 使 用 第 6 章 中 的 任何 方法 (如 PCA) 离 线 地 计算 W， 然 后 使 用 感知 
器 实现 变换 。 在 这 种 情况 下 ， 我们 有 两 层 网 络 ， 其 中 第 一 层 感 知 器 实现 线性 变换 ， 第 
二 层 在 新 空间 中 实现 线性 回归 或 分 类 。 注 意 ， 由 于 两 层 都 是 线性 变换 ， 所 以 它们 可 以 
组 合并 用 一 层 表示 。 在 11.5 节 ， 我 们 将 看 到 更 有 趣 的 情况 ， 其 中 第 一 层 实现 非 线 性 
维度 归 约 。 
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11.3 UARA 


感知 器 定义 了 一 个 超 平 面 ， 而 神经 网 络 感知 器 只 不 过 是 实现 超 平面 的 一 种 方法 。 给 定 
数据 样本 ， 可 以 离线 地 计算 权重 ， 然 后 当 将 它们 代入 时 ， 感 知 器 可 以 用 来 计算 输出 值 。 

在 训练 神经 网 络 时 ， 如 果 未 提供 全 部 样本 而 是 逐个 提供 实例 ， 则 通常 使 用 在 线 学 习 ， 
并 且 在 每 个 实例 到 达 后 更 新 网 络 参数 ， 让 网 络 缓慢 地 及 时 调整 。 这 种 方法 是 令 人 感 兴趣 
的 ， 有 如 下 原因 : 

1) 这 使 得 我 们 不 必 在 外 存 存放 训练 样本 ， 不 必 在 优化 时 存放 中 间 结 果 。 对 于 大 样本 ， 
像 支 持 向 量 机 这 样 的 方法 (第 13 章 ) 开 销 可 能 相当 大 ， 而 对 于 某 些 应 用 ， 我 们 可 能 更 愿意 
选择 较 简 单 的 方法 ， 它 不 必 存 放 全 部 样本 并 在 其 上 求解 复杂 的 优化 问题 。 

2) 问题 可 能 随时 变化 ， 这 意味 着 样本 的 分 布 不 固定 ,训练 集 不 能 预先 选 定 。 例 如 ， 
我 们 可 能 正在 实现 一 个 自动 适应 用 户 的 语音 识别 系统 。 

3) 可 能 存在 系统 的 物理 变化 。 例 如 ， 在 机 器 人 系统 中 ， 系 统 部 件 可 能 磨损 ， 传 感 器 
可 能 失灵 。 

对 于 在 线 学 习 (online learning)， 我 们 不 需要 全 部 样本 而 是 需要 单个 实例 上 的 误差 函 
数 。 从 随机 初始 权重 开始 ， 在 每 次 迭代 ， 对 参数 稍 加 调整 ， 以 便 最 小 化 误差 ， 而 不 忘记 我 
们 先前 学 到 的 。 如 果 误 差 函 数 是 可 微 的 ， 则 可 以 使 用 梯度 下 降 。 

例如 ， 对 于 回归 ， 在 单个 具有 标 引 的 实例 (x*，r') 上 的 误差 为 

E'(w|x',7) = E (r = y? = y D = w^» 
并 且 对 于 j= 二 0,，…，d， 在 线 更 新 为 
Aw; = yr — yz; (11-7) 
FOP pe SUA. y TAA AM). PEM PU AF MH (stochastic gradient de- 
scent) 。 

类 似 地 ， 可 以 对 使 用 逻辑 斯 详 判 别 式 的 分 类 问题 导出 更 新 规则 。 每 个 模式 后 进行 更 
新 ， 而 不 是 把 它们 累加 在 一 起 ， 在 完全 扫描 整个 训练 集 后 再 进行 更 新 。 对 于 两 个 类 ， 对 单 
个 实例 (x ，r')， 其 中 如 果 x ec MW ri=1, MR x EC: 则 x 二 0， 单 个 输出 为 

y = sigmoid( w! x') 
Tfi] 5 6j 
E'CCw |x' , P) —— rlogy' + (1— r)2log(1 — y) 

使 用 梯度 下 降 ， 对 于 j 二 0，…，d， 得 到 如 下 更 新 规则 : 

Aw = yr" — y'a (11-8) 

当 存 在 K>2 SRI, STAB Ce, ro. RopünÉx'€cr-—l. mW ro, Hi 
出 为 

, expw/x' 
X expwix' 
m ER Ay 
E'({w,}; |x‘ sr’) —— >Jrilogy’ 


使 用 梯度 下 降 ， 对 于 ; 王 1，…， 天 ，J 一 0，…，qd， 得 到 如 下 更 新 规则 : 
Aw; = Gi — yi x; (11-9) 
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除了 不 在 所 有 的 实例 上 求 和 ， 而 是 在 单个 实例 后 更 新 外 ， 这 与 我 们 在 10.7 节 中 看 到 的 方 
程 一 样 。 算 法 的 伪 代 码 在 图 11-3 中 ， 它 是 图 10-8 算法 的 在 线 版 本 。 式 (11-7) 和 式 (11-9) 
都 具有 如 下 形式 : 


更 新 = 学 习 因 子 X (期 望 输出 一 实际 输出 ) X 输入 (11-10) 
让 我 们 试 着 更 深入 地 考察 上 式 。 首 先 ， 如 ee 
果实 际 输出 等 于 期 望 输出 ， 则 不 需要 更 新 。 当 ao 
进行 更 新 时 ， 更 新 量 随 期 望 输出 与 实际 输出 之 ur E 0. 019 
差 的 增加 而 增加 。 我 们 还 看 到 ， 如 果实 际 输出 Repeat 
小 于 期 望 输出 ， 则 当 输 入 为 正 时 更 新 为 正 ， 输 SDS SA PEA 
入 为 负 时 更 新 为 负 。 这 具有 增加 实际 输出 和 降 ji inia 
低 与 期 望 输出 之 差 的 效果 。 如 果实 际 输出 大 于 -—M 
期 望 输出 ， 则 当 输入 为 正 时 更 新 为 负 ， 输 入 为 ac ies 
负 时 更 新 为 正 。 这 就 降低 了 实际 输出 ， 使 它 更 For i=1, =, K 
接近 于 期 望 输出 。 yi = expo) / X] expo 
在 更 新 时 ， 更 新 量 还 依赖 于 输入 。 如 果 输 —Ü 
人 接近 于 0， 则 它 对 实际 输出 的 影响 很 小 ， 因 此 For j=0, =, d 
权重 用 一 个 较 小 的 量 更 新 。 输 入 越 大 ， 权 重 的 ity ey Eg pay 


更 新 也 越 大 。 Until M $t 

最 后 ， 更 新 量 依赖 于 学 习 因 子 %。 如 果 它 太 
大 ， 则 更 新 过 分 依赖 当前 实例 ， 就 像 系统 只 有 图 113 HTAA K>? 个 类 的 情况 ， 实 现 随 
短期 记忆 。 如 果 该 因子 太 小 ， 则 可 能 需要 很 多 merema eaaa 
AWK, E 11.8.15, 我 们 将 讨论 加 快 收敛 的 方法 。 
11.4 学 习 布尔 函数 

在 布尔 函数 中 ， 输 入 是 二 元 的 ， 并 且 如 果 对 应 的 函数 值 为 真 则 输出 为 1， 否则 为 0。 因 
此 ， 它 可 以 看 作 两 类 分 类 问题 。 作 为 一 个 例子 ， 表 11-1 AND 函数 的 
考虑 学 习 AND 两 个 输入 ， 输 入 和 要 求 的 输出 显示 
在 表 11-1 中 。 实 现 AND 的 感知 器 和 它 的 二 维 几 何 
表示 的 一 个 例子 显示 在 图 11-4 中 。 判 别 式 是 

y = (i tz, —1. 5) 

也 就 是 说 x=[1, I) Be | w= 二 [一 1.5,， l, ia» 
注意 ，y 二 s(x 十 zz 一 1.5) 满 足 表 11-1 中 AND 函数 定义 给 定 的 4 个 约束 条 件 。 例 如 ， 对 于 
Zi 一 1，2 一 0，y 一 5( 一 0.5) 王 0。 类 似 地 ， 可 以 证 明 y=s(x2, +2, —0. 5) S20 OR. 








Oa) 





Xo=+] X, X; 


(0, 0) (1,0 15 ^ 


图 11-4 实现 AND 的 感知 器 和 它 的 几何 表示 
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尽管 像 AND 和 OR 这 样 的 布尔 函数 是 线性 可 分 的 ， 并 且 是 可 以 用 感知 器 求解 的 ， 但 
是 像 XOR 这 样 的 函数 不 是 。XOR 的 输入 和 要 求 的 输出 在 表 11-2 中 。 正 如 我 们 可 以 从 
图 11-5 看 到 的 ， 该 问题 不 是 线性 可 分 的 。 可 以 证 明 这 一 点 。 注 意 不 存在 w。、w 和 w, 的 值 


满足 下 列 不 等 式 : 
Wy) «0 
w: + w > 0 
Ww, + wo 之 0 
wi + w: +w <0 





表 11-2 XOR 函数 的 





图 11-5 XOR 问题 不 是 线性 可 分 的 。 我 们 不 能 划一 条 直线 
使 得 空心 圆 在 一 侧 ， 而 实心 圆 在 另 一 侧 
我 们 对 这 一 结果 并 不 奇怪 ， 因 为 (二 维 ) 直 线 的 VC 维 为 3。 具有 二 元 输入 ， 存 在 4 种 情 
况 ， 因 此 我 们 知道 存在 具有 两 个 输入 的 问题 ， 它 们 不 能 用 直线 求解 。XOR 就 是 其 中 之 一 。 


11.5 £&EIR A gs 


Hf FP Se ASC HEL A) SCR e HL AD Sat A ie HE PS HE SR PRR KOR 这 样 的 问题 ， 这 


些 问题 的 判别 式 是 非 线 性 的 。 类 似 地 ， 这 种 
感知 需 也 不 能 用 于 非 线性 回归 。 对 于 输入 和 
输出 层 之 间 存 在 中 间 层 或 隐藏 层 (hidden lay- 
er) 的 前 馈 网 络 ， 就 不 存在 这 种 局 限 性 。 如 果 
用 于 分 类 ， 这 种 多 层 感知 器 (MultiLayer 
Perceptron，MLP) 可 以 实现 非 线 性 判别 式 ， 
而 如 果 用 于 回归 ， 可 以 近似 输入 的 非 线性 
PRI BX 

输入 x 提供 给 输入 层 ( 包 括 偏 倚 ),“ 活 
性 ”向 前 传播 ， 并 计算 隐藏 单 元 的 值 z (参见 
图 11-6) 。 每 个 隐藏 单元 目 身 都 是 一 个 感知 
Aro JORGE ZR PER S JÉ A ZUE H F E K H 
ALAM : 
z, —sigmoid w; x) 

l 


O — 一 -一 一 一 一 - A= ls FH 


- É 
1 十 exp| 一 ( Puy; 3-285.) | 
j=] 


CELD 
输出 y Fe TE — BURN SR. E E a 
单元 的 输出 作为 它们 的 输入 


OO 


ih 


Z=+1 


Wi 


Xa 


Xo=+1 x; 


图 11-6 ZARAMA KA. g (7=0, =, d) 
是 输入 ，x (h=1, =, HO JE x 
元 ， 其 中 H ER IR] RS HEBES z 是 
隐藏 层 的 偏 傈 。w (i 二 1，…，K) 是 输 
出 单元 。 zi 是 第 一 层 的 权重 ， 而 v te 
第 二 层 的 权重 
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H 
y; = viz = X Uaz, + va (11-12) 
h—l 


其 中 隐藏 层 还 有 一 个 偏 傈 单元 ， 记 作 z。， 而 wo 是 偏 倚 权重 。z 的 输入 层 不 计 ， 因 为 计算 
不 在 那里 进行 ， 并 且 当 有 一 个 隐藏 层 时 ， 网 络 是 两 层 网 络 。 

与 通常 一 样 ， 在 回归 问题 中 ， 在 计算 y 的 输出 层 不 存在 非 线性 性 。 在 两 类 判别 任务 
中 ， 有 一 个 S 形 输出 单元 ， 并 且 在 天 之 2 PRIN, AK 个 以 软 最 大 作为 输出 非 线 性 的 
输出 。 

如 果 隐 藏 层 单元 的 输出 是 线性 的 ， 则 隐藏 层 就 没有 用 : 线性 组 合 的 线性 组 合 还 是 一 种 
线性 组 合 。S 形 果 数 是 取 靖 值 的 连续 、 可 微 版 本 。 需 要 可 微 性 ， 因 为 我 们 将 看 到 学 习 方 程 
是 基于 梯度 的 。 男 一 种 可 以 使 用 的 S 形 非 线 性 基 函 数 是 双 曲 正切 函数 tanh， 它 的 值 域 是 一 
1 一 十 1， 而 不 是 0 一 十 1。 在 实践 中 ， 使 用 sigmoid 与 使 用 tanh 并 无 区 别 。 还 有 一 种 可 能 
是 使 用 高 斯 函数 ， 它 使 用 欧 氏 距离 而 不 是 用 点 积 表示 相似 性 ; 我 们 将 在 第 12 章 讨论 这 种 
42 [6] AE PR BC] 24% 

^i tH ee Pek ak ALG TT TE B HE ER HE JE PR RUE MER PE A o PT DA E i ie PP TO i Td 维 
输入 空间 到 隐藏 单元 生成 的 互 维 空间 的 非 线 性 变换 ， 并 且 在 这 个 空间 中 ， 输 出 层 实现 了 
一 个 线性 函数 。 

我 们 不 限于 只 有 一 个 隐藏 屋 ， 而 是 可 以 将 更 多 的 、 具 有 自己 的 输入 权重 的 隐藏 层 放置 
在 具有 S 形 隐藏 单元 的 第 一 个 隐藏 层 之 后 ， 从 而 计算 隐藏 单元 的 第 一 层 的 非 线 性 函数 ， 实 
现 输入 的 更 复杂 的 函数 。 在 实践 中 ， 人 们 很 少 构建 超过 一 个 隐藏 层 的 网 络 ， 因 为 分 析 多 个 
隐藏 层 的 网 络 相 当 复杂 。 但 是 ， 有 时 当 隐 藏 层 包含 的 隐藏 单元 太 多 时 ， 使 用 多 个 隐藏 层 可 
能 是 明智 的 ， 宁 可 要 “长 而 罕 ” 的 网 络 ， 而 不 要 “ 短 而 胖 ” 的 网 络 。 


11.6 作为 普 适 近似 的 MLP 


我 们 可 以 将 任意 布尔 函数 表示 成 合 取 的 析 取 ， 因 此 一 个 布尔 表达 式 可 以 用 一 个 具有 一 
个 隐藏 层 的 多 层 感知 器 来 实现 。 每 个 合 取 用 一 个 隐藏 单元 实现 ， 而 析 取 用 输出 单元 实现 。 
例如 ， 

ii XOR t = (zx, AND =~ z;) OR (~ x, AND zz) 

前 面 ， 我 们 已 经 看 到 如 何 使 用 感知 器 实现 AND 和 OR。 因 此， 两 个 感知 器 可 以 平行 
地 实现 两 个 AND， 而 另 一 个 感知 器 可 以 将 它们 OR 在 一 起 (参见 图 11-7) 。 我 们 看 到 ， 第 
一 个 隐藏 层 将 输入 从 (zl，z;) 映 射 到 由 第 一 层 感知 器 定义 的 (zi1，z) 空 间 。 注 意 ， 输 入 
(0，0) 和 (1，1) 都 被 映射 到 (zi ，z;) 空 间 的 (0，0)， 使 得 在 第 二 个 空间 是 线性 可 分 的 。 

这 样 ， 在 二 元 情况 下 ， 对 于 输出 为 1 的 每 个 输入 组 合 ， 我 们 定义 一 个 隐藏 单元 ， 它 检 
查 输入 的 这 个 特定 合 取 。 然 后 ， 输 出 层 实现 析 取 。 注 意 ， 这 只 是 一 个 存在 性 证 明 ， 而 这 种 
网 络 可 能 不 现实 ， 因 为 当 存在 d 个 输入 时 ， 可 能 需要 多 达 2 个 隐藏 单元 。 这 种 结构 实现 了 
表 查 找 而 不 是 一 般 化 。 

我 们 可 以 将 这 些 扩 展 到 输入 是 连续 值 的 情况 ， 并 且 类 似 地 证 明 具 有 连续 输入 和 输出 的 
任何 函数 都 可 以 用 多 层 感 知 器 近似 。 使 用 两 个 隐藏 展 ， 普 适 近 似 (universal approxima- 
tion) 的 证 明 很 容易 : 对 于 每 种 输入 或 区 域 ， 使 用 第 一 个 隐藏 导 上 的 隐藏 单元 ， 该 区 域 可 以 
被 所 有 边 上 的 超 平面 所 界定 。 第 二 个 隐藏 层 的 单元 AND 它们 ， 围 住 该 区 域 。 然 后 ， 将 隐 
藏 单元 到 输出 单元 的 连接 权重 设置 为 期 望 的 函数 值 。 这 给 出 函数 的 分 段 常量 近似 (piece- 
wise constant approximation)， 这 对 应 于 忽略 泰勒 展开 式 中 除 和 常数 项 之 外 的 所 有 项 。 增 加 


多 层 感知 器 163 


隐藏 单元 的 数量 ， 并 在 输入 空间 中 取 更 细 的 栅 格 ， 可 以 提高 逼近 期 望 值 的 精度 。 注 意 ， 没 
有 给 定期 望 的 隐藏 单元 个 数 的 形式 化 上 界 。 这 种 性 质 只 是 确保 存在 一 个 解 。 除 此 之 外 对 我 
们 并 无 其 他 帮助 。 业 已 证 明 ， 具 有 一 个 隐藏 层 的 MLP( 具 有 任意 个 数 的 隐藏 单元 ) 可 以 学 
习 输 入 的 任意 非 线性 函数 (Hornik，Stinchcombe 和 White 1989). 





图 11-7 求解 XOR 问题 的 多 层 感 知 器 。 隐 藏 单 元 和 输出 单元 具有 赣 值 在 0 上 的 国 值 激活 函数 


11.7 向 后 传播 算法 


训练 多 层 感 知 器 与 训练 一 个 感知 器 一 样 。 唯 一 的 区 别 是 现在 的 输出 是 输入 的 非 线 性 函 
数 ， 这 多 亏 了 隐藏 单元 中 的 非 线 性 偏 倚 也 数 。 把 隐藏 单元 看 作 输 入 ， 第 二 层 是 感知 器 ， 并 
且 我 们 已 经 知道 在 给 定 输入 z; 的 情况 下 ， 如 何 更 新 参数 v; 。 对 于 第 一 层 权 重 ww ， 使 用 链 
规则 计算 梯度 : 

OE _ OE Əy: Oz 


QU); OY; Oz, QU; 
误差 就 像 从 输出 y 传 回 到 输入 一 样 ， 因 此 新 创 了 术语 向 后 传播 (backpropagation ) 
(Rumelhart, Hinton 和 Williams 1986a) 。 
11.7.1 非 线 性 回归 
让 我 们 首先 考虑 用 下 式 计算 的 (具有 单个 输出 的 ) 非 线性 回归 : 
y = > uzi Hw (11-13) 
其 中 z; 用 式 (11-11) 计 算 。 在 整个 回归 样本 上 的 误差 销 数 是 
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EW,0|x) ==>) (一 2 (11-14) 

第 二 层 是 以 隐藏 单元 为 输入 的 感知 器 ， 并 且 我 们 使 用 最 小 二 乘 规则 来 更 新 第 二 层 的 
权重 : 

Au, = 22, — yOzi (11-15) 

第 一 层 也 由 以 隐藏 单元 作为 输出 单元 的 感知 器 组 成 ， 但 在 更 新 第 一 层 权 重 时 ， 我 们 不 


能 直接 使 用 最 小 二 乘 规则 ， 因 为 对 于 这 些 隐藏 单元 ， 我 们 没有 指定 的 期 望 输出 。 这 正 是 链 
规则 起 作用 的 地 方 。 我 们 有 











oE OE oy Əz, 
Aw, =— 一 一 I 
" 7 Qj; 12, oy OZ) Qu; 
—— 9», — (r —¥') Vp zid — 25; 
t 
aE' /By ay’ /as dz), / Qo, 


=9 >) (Ff — yowzi(1— za (11-16) 


Bu P OL E] FE f Cr — y') wv 充当 隐藏 单元 hh 的 误差 项 。 该 误差 向 后 传播 到 隐藏 单 元 。 
(r' 一 y) 是 输出 的 误差 按 隐 藏 单元 的 “责任 ”加 权 ， 由 其 权重 给 出 。 在 第 三 项 中 ， 
z,(1—2,)À& S JÉ RA SR, ci 是 加 权 和 关于 权重 wij 的 导数 。 注 意 ， 第 一 层 权 重 的 改变 
Aw 使 用 了 第 二 层 的 权重 v,。 因 此 ， 我们 应 当 计 算 这 两 层 的 改变 ， 并 更 新 第 一 层 的 权重 ， 
然后 使 用 第 二 层 权 重 的 昌 值 更 新 第 二 层 的 权重 。 

初始 ， 权 重 wy 和 wv; 从 小 随机 值 ( 例 如 ， 区 间 [ 一 0.01，0. 01j] 中 的 值 ) 开 始 ， 使 得 S 形 
函数 不 饱和 。 规 范 化 输入 使 得 它们 都 具有 均值 0 和 单位 方差 ， 并 且 具 有 相同 尺度 也 是 一 种 
好 的 想法 ， 因 为 我 们 使 用 了 单个 7 参数 。 

使 用 这 里 给 定 的 学 习 方程 ， 对 于 每 个 模式 ， 我 们 计算 每 个 参数 的 改变 方向 和 改变 量 。 
在 批量 学 习 (batch learning) 中 ， 我 们 累积 所 有 模式 上 的 改变 ， 并 且 在 完全 扫描 了 整个 训练 
集 后 做 一 次 改变 ， 如 前 面 的 更 新 方程 所 示 。 

也 可 以 在 线 学 习 ， 在 每 个 模式 
后 更 新 权重 ， 从 而 实现 随机 梯度 下 
降 。 训 练 集中 所 有 模式 的 一 次 完整 
扫描 称 作 一 个 周期 (epoch)。 在 这 
种 情况 下 ， 应 当选 择 较 小 的 学 习 因 
CT wn， 并且 应 当 以 随机 次 序 扫 描 模 
式 。 因 为 数据 集中 可 能 有 类 似 的 模 
式 ， 在 线 学 习 收 敛 较 快 ， 并且 随 机 
性 具有 增加 噪声 的 效果 ， 并 有 助 于 
避免 陷入 局 部 极 小 。 

Ay EAYIA Z E R A HY — 1 
例子 显示 在 图 11-8 中 。 随 着 训练 继 


续 ，MLP WAG MARIE wR, "s errs " 
H 1-8 i Zi 显 示 2 4M a= (770.5, 
参见 -9 ) 。 
并 且 误 差 降低 见 图 oi 0.5), M xy—f(2 +n, 0.1), f(r) =sin(62x) 
图 11-10 显 示 如 何 形 成 MLP 拟 合作 用 虚线 显示 。 图 中 绘制 了 100, 200 和 300 个 周期 


为 隐藏 单元 输出 的 和 。 后 ,具有 两 个 隐藏 单元 的 MLP 的 拟 合演 变 





-2 
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调 练 周 期 


图 11-9 作为 训练 周期 的 函数 ， 训 练 和 验证 集 上 的 均 方 误差 





E al -4 
-0.5 0 0.5 -0.5 0 05 -0.5 0 0.5 


图 11-10 a) 第 一 层 上 隐藏 单元 权重 的 超 平 面 ，b) 隐藏 单元 输出 ，c) 隐藏 单元 输出 乘 以 第 二 层 的 权重 。 
纤细 线 显 示 两 个 S 形 隐藏 单元 ， 一 个 乘 以 负 权 重 ， 相 加 时 实现 隆起 。 使 用 更 多 的 隐藏 
单元 可 以 得 到 更 好 的 近似 (参见 图 11-12) 


还 可 以 有 多 个 输出 单元 。 在 这 种 情况 下 ， 同 时 学 习 多 个 回归 问题 。 我 们 有 
i= STi bis (11-17) 
而 误差 是 B 
EQ, V [3o = 5 9] 2] Gt - 9 (11-18) 
批量 更 新 规则 为 
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Ag —52,01— YD (11-19) 
AU —-32,| 2160 — yva ei — aija (11-20) 
2507 — yi) un 是 从 所 有 输出 单元 累积 的 隐藏 单元 h 的 向 后 传播 误差 。 算 法 的 伪 代 码 


在 图 11-11 中 。 注 意 ， 在 这 种 情况 下 ， 所 有 
输出 单元 共享 相同 的 隐藏 单元 ， 因 而 使 用 


将 所 有 的 Vin Al 了 立方 初始 化 为 > and(—0. 01, 0.01) 


Repeat 
相同 的 隐藏 表示 ， 因 此 我 们 假定 对 应 于 这 For 随机 次 序 下 所 有 的 (x'，r')€ X 
些 不 同 的 输出 ,我 们 有 相关 的 预测 问题 。 For h=1, =, H 
一 种 可 供 选 择 的 方法 是 对 每 个 回归 问题 训 age digmoii(mg hara 
练 一 个 多 层 感 知 器 ， 每 个 都 有 目 己 的 隐藏 md 
单元 。 
For i=l, «+, K 
11.7.2 两 类 判别 式 Ay =g Ws 
For À—1, :*, H 
当 有 两 个 类 时 ， 一 个 J 出 单元 就 足 Aw, = n( >) Grit — yit) Un Jzn (1 — zy) x! 
WT. 
is For i=1, =, K 
y = sigmoid( >) uzi +) (11-21) yxy tA 
ON For h-1, wn H 
CMW PCs |x) RB COH 1x0 —1— y. A cvi om 
10. 7 "Bs 我 们 知道 在 此 情况 下 ， Vx 23 PH Until 收敛 
数 是 





EW,v | X) —— Dr'logy --ü—»r)lgü-—y) 图 11-11 为 具有 个 输出 的 回归 训练 多 层 感知 融 
t 的 向 后 传播 算法 。 容 易 调 整 代码 用 于 两 


(11-22) 类 问题 (设置 单个 S 形 输出 ) 和 天 之 2 类 

实现 梯度 下 降 的 更 新 方程 是 ENER E aE 
Av, =>, — y')zt (11-23) 
At —9»,( — y Yuzi(-— a (11-24) 


与 简单 的 感知 器 一 样 ， 回 归 和 分 类 的 更 新 方程 是 相同 的 (这 并 不 意味 它们 的 值 相同 )。 


11.7.3 多 类 判别 式 
在 天 之 2 类 分 类 问题 中 ， 有 天 个 输出 





of = >) vazi t+ a (11-25) 
并 且 我 们 使 用 软 最 大 指示 类 之 间 的 依赖 性 ， 即 它们 是 互 斥 的 和 穷 举 的 : 
p= ppe (11-26) 
>) exp O; 


其 中 y Xr f! PC; x he 误差 图 数 是 
EW,V|x) =— >) 5 rilogy! | (11-27) 
并 且 我 们 使 用 梯度 下 降 得 到 更 新 方程 : 
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Avs, =4 2 (4 — yet (11-28) 


Nw; —32,| >) — »Dva [zi Q — 212] (11-29) 


Richard 和 Lippmann(1991) 证 明 ， 给 定 一 个 足够 复杂 的 网 络 和 足够 的 训练 数据 ， 适 当 
训练 的 多 层 感 知 器 估计 后 验 概率 。 


11.7.4 多 个 隐藏 层 


正如 我 们 在 前 面 看 到 的 ， 可 以 有 多 个 隐藏 层 ， 每 个 具有 自己 的 权重 ， 并 将 SJE RUE 
用 于 它 的 加 权 和 。 对 于 回归 ， 假设 有 一 个 多 层 感知 侨 ， 上 有 具有 两 个 隐藏 层 ， 我 们 有 


d 
Za —sigmoid(wi,x) = sigmoid ( » wij; + wim )， h = l;e, H; 
j=] 


H, 
za —sigmoid(wZz) = sigmoid ( >) wanzu + woo)» L= 1,7. H: 
h=0 


H, 


EON: -— 
I= A > SD) uzu + w 
1-1 


其 中 w All zw 分 别 是 第 一 和 第 二 层 的 权重 ， Zin 和 zz 分 别 是 第 一 和 第 二 个 隐藏 层 的 单元 ， 
而 v 是 第 三 层 的 权重 。 训 练 这 种 网 络 是 类 似 的 ， 唯 一 的 区 别 在 于 ， 为 了 训练 第 一 层 的 权 
SR. 需要 问 后 传播 更 多 层 ( 习 题 5 ) 。 


11.8 训练 过 程 
11.8.1 改善 收敛 性 


梯度 下 降 具 有 多 种 优点 。 它 简单 ， 它 是 局 部 的 ， 即 权重 的 改变 只 使 用 前 后 突 触 单元 和 
误差 (适合 向 后 传播 ) 的 值 。 当 使 用 在 线 训练 时 ， 它 不 需要 存储 训练 集 ， 并 且 可 以 自 适 应 学 
习 任 务 的 变化 。 由 于 这 些 原因 ， 它 可 以 (并 且 已 经 ) 用 硬件 实现 。 但 是 ， 就 自身 而 言 ， 梯 度 
下 降 收 敛 很 慢 。 当 学 习 时 间 很 重要 时 ， 可 以 使 用 更 复杂 的 优化 方法 (Battiti 1992) 。Bishop 
(1995) 详 细 讨 论 了 训练 多 层 感 知 器 的 共 轿 梯度 的 应 用 和 二 阶 方 法 。 然 而 ， 有 两 种 频繁 使 用 
的 简单 技术 ， 可 以 显著 地 改善 梯度 下 降 的 性 能 ， 使 得 基于 梯度 的 方法 在 实际 应 用 中 是 可 
行 的 。 

1. 动量 

A wi 为 多 层 感知 器 任意 层 中 的 任意 权重 ， 包括 偏 位 。 在 每 次 参数 更 新 时 ， 连 续 的 Aw; 
值 可 能 很 不 相同 以 至 于 可 能 出 现 氛 动 ， 减缓 收 剑 。t 为 时 间 指 数 ， 是 批量 学 习 的 周期 数 和 
在 线 学 习 的 迭代 次 数 。 基 本 思想 是 在 当前 的 改变 中 考虑 上 一 次 的 更 新 ， 取 移动 平均 ， 好 像 
因 上 次 更 新 而 存在 动量 (momentum): 

re) 
o 


hay =— 3 oF dau; ! (11-30) 


wW; 
Wiis, a 在 0.5 一 1.0 之 间 取 值 。 当 使 用 在 线 学 习 时 ， 这 种 方法 特别 有 用 。 我 们 将 得 到 
FY AGIA WO PLE OR. d a eda BAA Aw 存放 在 额外 的 存储 器 中 。 
2. 自 适应 学 习 率 
在 梯度 下 降 中 ， 学 习 因 子 7 决定 参数 的 改变 量 。 它 通常 在 0.0~1.0 之 间 取 值 ， 大 部 
分 情况 下 小 于 或 等 于 0.2。 为 了 更 快 收敛 ， 可 以 让 它 自 适 应 。 学 习 进 行 时 它 保持 较 大 ， 学 
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习 减 慢 时 它 也 减 小 : 
mal Vas (11-31) 
ty il 
这 样 ， 如 果 训 练 集 上 的 误差 减 小 ， 则 ?增加 一 个 常量 ;如 果 误 差 增 大 ， 则 pU. HF E 
可 能 从 一 个 周期 到 另 一 个 周期 震荡 ， 所 以 最 好 用 过 去 几 个 周期 的 平均 值 作为 E. 


11. 8.2 过 分 训练 


具有 d 个 输入 、 互 个 隐藏 单元 、 开 个 输出 的 多 层 感 知 器 在 第 一 层 有 互 (d 十 1) 个 权重 ， 
第 二 层 有 天 (五 十 1) 个 权重 。MLP 的 时 间 和 空间 复杂 度 都 是 O( 互 (下 十 d))。 用 表示 训 
练 周期 数 ， 则 训练 时 间 复 杂 度 为 O(e' H * (K+d)). 

在 一 个 应 用 中 ，& 和 天 都 是 预先 确定 的 ， 而 H 是 参数 ,我 们 用 它 来 调整 模型 的 复杂 
性 。 从 前 面 的 章节 我 们 知道 ， 过 于 复杂 的 模型 记 住 了 训练 集中 的 噪声 ， 不 能 泛 化 到 验证 
集 。 人 例如， 先前 我 们 在 多 项 式 回 归 中 已 经 看 到 这 种 现象 ， 那 里 我 们 看 到 噪声 或 小 样本 的 出 
现 增 加 了 多 项 式 的 阶 ， 导 致 更 糟糕 的 泛 化 。 类 似 地 ， 在 MLP 中 ， 当 隐藏 单元 数 很 大 时 ， 
泛 化 精度 恶化 (参见 图 11-12)， 并 且 像 任何 统计 学 估计 一 样 ， 对 于 MLP, EF EmA 
差 的 两 难 选择 (Geman，Bienenstock 和 Doursat 1992) , 

当 训 练 持 续 时 间 过 长 时 ， 类 似 的 事情 也 会 发 生 : 随 着 训练 周期 的 增加 ， 训 练 集 上 的 误 
差 降 低 ， 但 是 当 超 过 某 一 点 时 ， 验 证 集 上 的 误差 开始 增加 (参见 图 11-13) 。 回 忆 一 下 ， 初 
始 时 所 有 的 权重 都 接近 于 0， 因 此 影响 都 很 小 。 随 着 训练 继续 进行 ， 大 部 分 重要 的 权重 开 
始 远 离 0 并 发 挥 作用 。 但 是 ， 如 果 训 练 一 直 继 续 ， 则 训练 集 上 的 误差 越 来 越 小 ， 几 乎 所 有 
的 权重 都 被 更 新 ， 远 离 0 成 为 有 效 的 参数 。 这 样 ， 随 着 训练 继续 进行 ， 就 像 将 新 的 参数 添 
加 到 系统 中 一 样 ， 增 加 了 系统 的 复杂 度 ， 导 致 糟糕 的 泛 化 。 学 习 应 当 在 不 是 太 晚 时 停止 ， 
以 减轻 过 分 训练 (overtraining) 问 题 。 停 止 训练 的 最 佳 点 和 最 佳 隐 藏 单 元 数 通过 交叉 验证 确 
定 ， 这 涉及 在 训练 期 间 未 曾 见 过 的 验证 集 上 测试 网 络 的 性 能 。 
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11-12 随 着 复杂 度 增 加 ， 训 练 误 差 固 定 但 验 图 11-13 随 着 训练 继续 进行 ， 验 证 误差 开始 
证 误差 开始 增加 ， 网 络 开 始 过 拟 合 增加 ， 网 络 开始 过 拟 合 


由 于 非 线 性 性 ， 误 差 函 数 可 能 具有 和 多 个 极 小 ， 而 梯度 下 降 收敛 于 最 近 的 极 小 。 为 了 能 
够 评估 期 望 的 误差 ， 通常 以 不 同 的 初始 权重 开始 ， 对 相同 的 网 络 训练 多 次 ， 并 且 计 算 验 证 
误差 的 平均 值 。 
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11.8.3 构造 网 络 


在 某 些 应 用 中 ， 我 们 可 能 相信 输入 具有 局 部 结构 。 例 如 ， 在 视频 中 ， 我 们 知道 邻近 的 
像素 是 相关 的 ， 并 且 存 在 诸如 边 、 角 等 局 部 特征 。 任 何 对 象 ， 如 手写 体 数字 ， 都 可 以 定义 
为 这 些 图 元 的 组 合 。 类 似 地 ， 在 语音 中 ， 存 在 时 间 局 部 性 ， 并 且 时 间 上 相近 的 输入 可 能 组 
成 语音 基 元 。 组 合 这 些 基 元 ， 可 以 定义 较 长 的 发 音 ， 如 语音 音素 。 在 这 种 情况 下 ， 在 设计 
MLP 时 ， 并 不 是 将 隐藏 单元 连接 到 所 有 的 输入 单元 ， 因 为 并 非 所 有 的 输入 都 是 相关 的 。 
另外 ,我 们 定义 隐藏 单元 ， 它 在 输入 空间 上 定义 一 个 输入 窗口 ， 并 且 仅 与 输入 的 一 个 小 的 
局 部 子 集 相连 接 。 这 样 做 减少 了 连接 数 ， 从 而 减少 了 自由 参数 的 数目 (Le Cun 等 1989 ) 。 

我 们 可 以 在 连续 层 重复 这 一 做 法 ， 每 层 连接 下 一 层 的 少量 局 部 单元 ， 并 且 通 过 组 合 
下 面 输入 空间 的 较 大 部 分 ， 检 测 更 复杂 的 特征 ， 直 到 输出 层 ( 参 见 图 11-14)。 例 如 ， 输 
入 可 能 是 像素 。 通 过 观察 像素 ， 第 一 个 隐藏 层 的 单元 可 以 学 习 检 测 各 方向 的 边 。 然 后 ， 
通过 组 合 一 些 边 ,， 第 二 个 隐藏 层 的 单元 可 以 学 习 检 测 边 的 组 合 ( 例 如 ， 弧 、 角 、 线 段 )， 
并 且 在 较 高 层 组 合 它 们 。 这 些 单 元 可 以 寻找 半圆 、 和 矩形 ， 或 者 在 人 脸 识 别 应 用 中 ， 寻 找 
HR. We. AE A RHE (hierarchical cone) 的 一 个 例子 ， 随 着 我 们 沿 着 网 络 向 上 直到 得 
到 类 ， 特 征 越 来 越 复杂 、 抽 象 ， 并 且 数 
量 越 来 越 少 。 这 种 结构 称 作 卷 积 神经 网 
络 (convolutional neural network), H HP 
每 个 隐藏 单元 的 工作 被 认为 是 其 输入 与 Gis; 
其 权重 向 量 的 一 个 卷 积 。 先 前 的 类 似 结 A 










JINE 
构 是 神经 认 知 机 (neocognitron) (Fukushi- AAA 


ma 1980), Ay 





W/ 
Z | 


在 这 种 情况 下 ， 我 们 可 以 通过 权重 图 11-14 一 个 结构 化 的 MLP。 每 个 单元 都 连接 到 其 


l , 下 单元 的 一 个 局 部 组 ， 并 检测 一 个 特定 的 
—4 人 少 参 ‘ 
A (weight sharing) 3E 2 Ms RB 特征 (例如 ， 视 频 中 的 边 、 角 等 ) 。 每 个 区 
数目 。 再 次 以 图 像 识 别 为 例 ， 我 们 可 以 域 只 显示 了 一 个 隐 茂 单元。 通常， 有 许多 
看 到 ， 在 我 们 寻找 像 有 向 边 这 样 的 特征 用 于 检测 不 同 局 部 特征 的 隐藏 单元 


时 ， 它 们 可 能 出 现在 输入 空间 的 不 同 部 
分 。 因 此 ， 不 是 定义 独立 的 隐藏 单元 学 
习 输 入 空间 不 同 部 分 的 不 同 特征 ， 我 们 
可 以 有 考察 输入 空间 的 不 同 部 分 的 相同 
隐藏 单元 的 拷贝 (参见 图 11-15)。 在 学 习 
WE, 我们 取 不 同 的 输入 计算 梯度 ， 然 
后 对 它们 取 平 均值 ， 并 做 单个 更 新 。 这 
意味 着 单个 参数 定义 多 个 连接 上 的 权重 。 图 11-15 在 权重 共享 中 ， 不同 的 单元 具有 到 不 同 输入 





此 外 ， 由 于 一 个 权重 上 的 更 新 基于 多 个 的 连接 ， 但 是 共享 相同 的 权重 值 ( 用 线 型 表 
输入 的 梯度 ， 所 以 训练 集 实 际 上 就 好 像 示 )。 只 显示 了 一 组 单元 ; 应 当 有 多 组 单元 ， 
在 成 倍增 加 。 每 个 检测 不 同 的 特征 

11.8.4 线索 


局 部 结构 的 知识 使 得 我 们 可 以 预先 构造 多 层 网 络 ， 并 且 使 用 权重 共享 使 得 它 具 有 较 少 
的 参数 。 具 有 全 连接 层 的 MLP 不 具有 这 种 结构 ， 并 且 更 难 训练 。 如 果 可 能 ， 与 应 用 相关 
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的 任何 类 型 的 知识 都 应 当 构 建 到 网 络 结构 中 。 这 些 称 作 线 索 (hint)(Abu-Mostafa 1995 ) 。 
它们 是 我 们 知道 的 目标 困 数 的 性 质 ， 独 立 于 训练 实例 。 
在 图 像 识 别 中 ， 存 在 一 些 不 变性 线索 ; 当 对 象 旋转 、 变 换 或 缩放 时 ， 它 的 身份 不 变 


(参见 图 11-16) 。 线 索 是 辅助 信息 ， 可 以 用 来 
指导 学 习 过 程 ， 并 且 当 训练 集 有 限时 特别 有 
用 。 使 用 线索 可 以 有 不 同 的 方法 : 


D 可 以 使 用 线索 创建 庶 拟 实例 (virtual 图 11.16 当 对 象 变换 、 旋 转 或 缩放 时 ， 它 的 恒 等 


example), 。 例 如 ， 知 道 对 象 是 缩放 不 变 的 ， 性 不 变 。 注 意 这 并 非 总 是 为 真 ， 或 者 可 
从 给 定 的 训练 实例 ， 我 们 可 以 用 不 同 的 尺寸 能 在 某 种 程度 为 真 :“b” 和 “gq” 互 为 旋转 
产生 多 个 拷贝 ， 并 以 相同 的 类 标号 将 它们 添 版 本 。 这 些 是 可 以 纳入 到 学 习 过 程 中 的 
加 到 训练 集中 。 这 样 做 的 优点 是 增 大 了 训练 线索 使 得 学 习 更 容易 


集 且 不 需要 对 学 习 方 法 做 任何 修改 。 问 题 可 能 是 对 于 学 习 方法 ， 可 能 需要 太 多 实例 来 学 习 
不 变性 。 

2) 不 变性 可 以 作为 预 处 理 阶段 实现 。 例 如 ， 光 学 字符 阅读 器 可 以 有 一 个 预 处 理 步 又 ， 
将 输入 字符 的 图 像 关 于 尺寸 和 倾斜 进行 中 心 化 和 规范 化 。 当 可 行 时 ， 这 是 最 简单 的 解决 
方案 。 

3) 线索 可 以 纳入 网 络 结 构 中 。 我 们 在 11. 8. 3 节 看 到 的 局 部 结构 和 权重 共享 就 是 一 
例子 ， 它 对 小 变换 和 旋转 得 到 不 变性 。 

4) 也 可 以 通过 修改 误差 函数 纳入 线索 。 假 设 我 们 知道 从 应 用 角度 来 说 ，x 和 x 是 相同 
的 ， 其 中 x 可 能 是 x 的 “虚拟 实例 ”。 也 就 是 说 ， 当 f(x) 是 我 们 要 近似 的 函数 时 ，f(x) 三 
fx). ARTHA g(x10) 表 示 近 似 函 数 ， 例 如 MLP， 其 中 0 是 它 的 权重 。 然 后 ， 对 于 所 有 
这 样 的 (x，x )， 我 们 定义 罚 函 数 

= [g(x|0)— g(x |0] 
并 把 它 作为 一 个 额外 项 加 到 通常 的 误差 图 数 中 : 
E —E-rA-*E 
xxe— ^ 130, RET Bü dU A BRA RRRA, T 4 是 这 种 惩罚 的 权重 (Abu-Mostafa 
1995), 
另 一 个 例子 是 近似 线索 。 假 设 对 于 x， 我 们 不 知道 准确 的 f(x) 值 ， 但 是 我 们 知道 它 在 
KLas b- 中 ， 则 我 们 添加 的 罚 项 是 : 
0 如 果 g(x10) € [a,,b, | 
E; = [itn —a,) duXg(rl0)-a, 
(g(x)—5,) mR g(z|0) >b 
这 类 似 于 支持 向 量 机 回归 使 用 的 误差 图 数 (13. 10 节 )， 它 容忍 小 的 近似 误差 。 

还 有 一 个 例子 是 正切 支撑 (tangent prop) (Simard 等 1992)， 其 中 变换 与 我 们 定义 的 线 
索 相 对 。 例 如 ， 旋 转 一 个 角度 用 一 个 函数 建 模 。 通 常 的 误差 函数 被 修改 (添加 为 一 个 项 )， 
使 得 参数 可 以 沿 着 这 条 变换 线 移动 而 不 改变 误差 。 


11.9 调整 网 络 规模 


前 面 我 们 看 到 ， 当 网 络 太 大 且 具 有 太 多 的 自由 参数 时 ， 泛 化 可 能 不 好 。 为 了 寻找 最 佳 
的 网 络 规模 ， 最 常用 的 方法 是 尝试 不 同 的 结构 ， 在 训练 集 上 训练 它们 ， 并 选择 对 验证 集 泛 
化 最 好 的 结构 。 男 一 种 方法 是 将 结构 自 适 应 (structural adaptation) 合 并 到 学 习 算 法 中 。 有 
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两 种 方法 可 以 做 这 件 事 : 

1) 在 破坏 性 (destructive) 方 法 中 ， 我 们 从 一 个 大 网 络 开 始 ， 逐 步 删 除 不 必要 的 单元 和 
连接 。 

2) 在 建设 性 (constructive) 方 法 中 ， 我 们 从 一 个 小 网 络 开 始 ， 逐 步 增加 改善 性 能 的 单 
元 和 连接 。 

一 种 破坏 性 方法 是 权 衰 减 (weight decay)， 其 基本 思想 是 删除 不 必要 的 连接 。 理 想 地 ， 
为 了 能 够 确定 一 个 单元 或 连接 是 否 必要 ， 我 们 需要 使 用 它 训练 一 次 ， 不 使 用 它 训 练 一 次 ， 
并 检查 独立 的 验证 集 上 的 误差 之 差 。 这 种 开销 很 大 ， 因 为 这 件 事 需要 在 单元 /连接 的 所 有 
组 合 上 进行 。 

假设 如 果 一 个 连接 的 权重 为 0， 则 没有 使 用 它 。 我 们 给 每 个 连接 一 个 衰减 到 0 的 趋势 ， 
使 得 除非 为 了 降低 误差 它 被 明显 地 加 强 ， 否 则 它 将 消失 。 对 于 网 络 中 的 任意 权重 w, R 
们 使 用 更 新 规则 : 


Au = —— — Rw; (11-32) 


xx 5 OTF EBA — T MIHIR PR OG E AT AE EA BY 
网 络 : 


E' = E+4 Dw (11-33) 


A fra] E. Fi] Dod 28 as EF Ze AE a B zs d NT se eS PS SCL. TERR. 我们 并 不 是 
说 简单 的 网 络 总 是 比 大 网 络 好 。 我 们 是 说 如 果 有 两 个 具有 相同 训练 误差 的 网 络 ， 则 较 简 单 
的 那个 ( 即 具 有 较 少 权重 的 那个 ) 可 以 更 好 地 泛 化 到 验证 集 上 的 可 能 性 较 高 。 

式 (11-32) 中 第 二 项 的 效果 像 一 个 弹 赞 ， 将 每 个 权重 拉 加 0。 从 一 个 接近 于 0 的 值 开 
始 ， 除 非 实 际 误差 的 梯度 很 大 并 导致 更 新 ， 否 则 由 于 第 二 项 ， 权 重 将 逐渐 衰减 为 0。) 是 
参数 ， 决 定 训 练 集 上 的 误差 和 由 于 非 零 参数 导致 的 复杂 性 的 相对 重要 性 ， 因 此 决定 衰减 速 
E: 使 用 大 的 *， 无 论 训 练 误差 多 大 ， 权 重 将 被 拉 问 0; 使 用 小 的 *， 对 非 零 权重 的 惩罚 不 
大 。 使 用 交叉 验证 对 和 进行 微调 。 

不 是 从 大 网 络 开 始 并 剪 去 不 必要 的 连接 或 单元 ， 我 们 也 可 以 从 小 网 络 开 始 ， 必 要 时 添 
加 单元 和 相关 的 连接 (参见 图 11-17)。 在 动态 节点 创建 (dynamic node creation) 中 (Ash 
1989)， 训 练 具 有 一 个 隐藏 层 一 个 隐藏 单元 的 MLP 且 收 敛 后 如 果 误 差 仍然 很 高 ， 则 添加 一 
个 隐藏 单元 。 随 机 初始 化 新 添加 单元 的 输入 权重 和 输出 权重 并 与 先前 存在 的 权重 一 起 训 
练 。 先 前 存在 的 权重 不 再 重新 初始 化 ， 而 是 从 先前 的 值 开 始 训 练 。 

在 级 联 相关 (cascade correlation) 中 (Fahlman 和 Lebiere 1990)， 每 个 添加 的 单元 是 男 
一 个 隐藏 层 中 的 新 的 隐藏 单元 。 每 个 隐藏 层 只 有 一 个 单元 ， 连 接 到 它 前 面 所 有 隐藏 单元 和 
输入 。 已 存在 的 权重 被 冻结 ， 不 再 训练 ， 只 训练 新 添加 单元 的 输入 和 输出 权重 。 

动态 节点 创建 在 已 经 存在 的 隐藏 层 中 创建 一 个 新 的 隐藏 单元 ， 而 不 增加 新 的 隐藏 层 。 
级 联 关联 总 是 创建 具有 单个 单元 的 新 的 隐藏 层 。 理 想 的 建设 性 方法 应 当 能 够 决定 何 时 引进 
一 个 新 的 隐藏 层 ， 何 时 加 已 有 的 隐藏 层 添 加 一 个 新 单元 。 这 是 一 个 尚 待 解决 的 研究 问题 。 

增 量 算法 很 有 趣 ， 因 为 它 在 学 习 期 间 不 仅 修改 参数 ， 而 且 修 改 模型 结构 。 我 们 可 以 考 
虑 多 层 感 知 右 的 结构 定义 的 空间 和 在 该 空间 中 对 应 于 增加 /删除 单元 或 层 的 操作 的 移动 
(Aran 等 2009)。 于 是 ， 增 量 算法 在 这 个 状态 空间 搜索 ，( 按 照 某 种 次 序 ) 尝 试 这 些 操作 ， 
并 根据 某 种 优 劣 度量 (例如 ， 复 杂 度 与 验证 误差 的 某 种 组 合 ) 接 受 或 拒绝 。 男 一 个 例子 是 多 
项 式 回 归 ， 其 中 高 阶 项 在 训练 阶段 自动 地 添加 /删除 ， 使 得 模型 的 复杂 度 与 数据 的 复杂 度 
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相 适 应 。 随 着 计算 费用 逐渐 降低 ， 这 种 自动 的 模型 选择 将 成 为 学 习 过 程 的 一 部 分 自动 地 进 
行 ， 而 不 需要 用 户 干 预 。 





动态 节点 创建 级 联 相 关 


图 11-17 建设 性 方法 的 两 个 例子 。 动 态 节 点 创建 向 一 个 已 存在 的 隐藏 层 添加 一 个 单元 。 级 联 相关 添加 
每 个 单元 作为 新 的 隐藏 层 ， 连 接 到 前 面 的 所 有 层 。 虚 线 表 示 新 增加 的 单元 /连接 。 为 了 清晰 起 见 ， 
忽略 了 偏 倚 单 元 /权重 


11. 10 学习 的 贝 叶 斯 观点 


贝 叶 斯 方法 在 训练 神经 网 络 时 将 参数 ( 即 连接 权重 w;) 看 作 取 自 先 验 分 布 p(w;) 的 随机 
变量 ， 并 计算 给 定数 据 的 后 验 概率 


T p(x | w)PCw) 


pOw| X (11-34) 


力 CX ) 
其 中 w 是 网 络 的 所 有 权重 的 向 量 。MAP {hit wea s B AC 
功 MAP = arg max logpCw | X) (11-35) 


取 式 (11-34) 的 对 数 ， 得 到 
logp(w|xX) = logpCX | w) + logp(w) +C 
右边 的 第 一 项 是 对 数 似 然 ， 而 第 二 项 是 先 验 概率 的 对 数 。 如 果 权 重 是 独立 的 ， 并 且 先 
验 概率 取 作 高 斯 分 布 N(0，1/24) 


p(w) = [[ p(w) 其 中 p(wi) =c- exp| 一 = | (11-36) 


: 20/2) 
则 MAP 估计 最 小 化 增 广 误差 函数 
E' = E+ ,|w|? (11-37) 
其 中 下 为 通常 的 分 类 或 回归 误差 ( 负 的 对 数 似 然 )。 这 个 增 广 误差 正 是 我 们 在 权重 衰减 ( 参 
见 式 (11-33)) 中 使 用 的 误差 函数 。 使 用 较 大 的 4 意味 着 较 小 的 参数 可 变性 ， 对 它们 施加 更 
大 的 力量 ， 使 之 接近 于 0， 并 上 且 更 多 地 考虑 先 验 而 不 是 数据 ; MRA 较 小 ， 则 允许 较 大 的 
参数 可 变性 。 这 种 删除 不 必要 的 参数 的 方法 在 统计 学 中 称 作 岭 回 归 (ridge regression) 。 
这 是 使 用 代价 函数 、 结 合 对 数据 的 拟 合 和 模型 复杂 度 正 则 化 (regularization) 的 另 一 个 例子 
代价 = 数据 错 拟 合 十 1。 复杂 度 (11-38) 
MacKay(1992a,b) 讨 论 了 在 训练 多 层 感知 器 时 使 用 贝 叶 斯 估计 。 我 们 将 在 第 16 章 更 
详细 地 讨论 贝 叶 斯 估计 。 
经 验 表 明 ， 训 练 后 多 层 感 知 器 的 大 部 分 权重 都 围绕 0 正 态 分 布 ， 证 明 使 用 权重 训 减 是 
正确 的 。 但 有 是， 并非 总 是 这 种 情况 。Nowlan 和 Hinton (1992) 提 出 了 软 权 重 共 享 (soft 
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weight sharing) ， 其 中 权重 取 自 混合 高 斯 分 布 ， 人 允许 它们 形成 多 个 而 不 是 一 个 簇 。 此 外 ， 
这 些 得 的 中 心 可 以 在 任何 地 方 ， 而 不 必 在 0， 并 且 具 有 可 以 修改 的 方差 。 这 将 式 (11-36 ) 的 
先 验 概率 改变 成 M2 个 高 斯 混合 

p(w) = Xap; Cw) (11-39) 


其 中 是 先 验 ，p (ww) 一 rm ，s2) 是 高 斯 分 量 。M 由 用 户 设置 ， 而 w m 和 ,从 数据 
中 学 习 。 在 训练 阶段 使 用 这 种 先 验 并 用 它 的 对 数 增 广 误差 函数 ， 权 重 收敛 以 降低 误差 ， 并 
目 还 自动 地 分 组 以 提高 对 数 先 验 ， 
11. 11 维度 归 约 
”在 多 层 感知 器 中 ， 如 果 隐藏 单元 数 小 于 输入 数 ， 则 第 一 层 进行 维度 归 约 。 这 种 归 约 形 
式 和 隐藏 单元 生成 的 新 空间 依赖 于 MLP 的 训练 目的 。 如 果 MLP 用 来 分 类 ， 输 出 单元 紧 
随 隐藏 层 ， 则 定义 新 空间 并 学 习 映 射 来 降低 分 类 误差 (参见 图 11-18). 
0.9} 
0.8 
0.7-- 


~ 0.6 





图 11-18 绘制 在 用 于 分 类 的 训练 后 的 MLP 的 两 个 隐藏 单元 的 空间 中 的 Optdigits 数据 。 只 显示 了 
100 个 数据 点 的 标号 。 该 MLP 具有 64 个 输入 、2 个 隐藏 单元 和 10 个 输出 ， 具 有 80% HY 
准确 率 。 由 于 S 形 函数 ， 隐 藏 单 元 的 值 在 O~1 之 间 ， 并 且 类 在 角落 附近 聚集 。 可 以 将 
该 图 与 第 6 章 的 图 比较 。 第 6 章 的 图 在 相同 的 数据 集 上 使 用 其 他 维度 归 约 方法 绘制 


通过 分 析 权 重 ， 我 们 可 以 明白 MLP 在 做 什么 。 我 们 知道 当 两 个 向 量 相等 时 点 积 最 大 。 
因此 ， 我 们 可 以 认为 每 个 隐藏 单元 定义 了 其 输入 权重 的 模板 ， 并 通过 分 析 这 些 模板 ， 可 以 
从 训练 后 的 MLP 中 提取 知识 。 如 果 输 入 是 规范 化 的 ， 则 权重 告诉 我 们 它们 的 相对 重要 性 。 
这 样 的 分 析 并 不 容易 ， 但 是 让 我 们 洞察 MLP 在 做 什么 ， 并 使 我 们 可 以 窥视 黑箱 。 

一 种 有 趣 的 结构 是 自动 关联 器 (autoassociator) (Cottrell, Munro 和 Zipser 1987)。 这 
是 一 种 MLP 结构 ， 其 中 输出 与 输入 一 样 多 ， 并 定义 期 望 输出 等 于 输入 (参见 图 11-19)。 为 
了 能 够 在 输出 层 重 新 产生 输入 ，MLP 被 迫 寻 找 输入 在 隐藏 层 的 最 佳 表示 。 当 隐藏 单元 数 
小 于 输入 数 时 ， 这 意味 着 维度 归 约 。 一 旦 训练 完成 ， 从 输入 到 隐藏 层 的 第 一 层 充 当 编 码 
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信号 的 编码 表示 重 构 原始 信号 。 





非 线 性 


图 11-19 在 自动 编码 器 中 ， 输 出 与 输入 一 样 多 且 期 望 的 输出 是 输入 。 当 隐藏 单元 数 小 于 输入 数 时 ， 
MLP 被 训练 以 便 发 现 输入 在 隐藏 层 上 的 最 佳 编码 ， 实 现 维度 归 约 。 左 边 第 一 层 充 当 编 码 器 ， 
第 二 层 充当 解码 器 。 在 右边 ， 如 果 编 码 器 和 解码 器 是 具有 S 形 隐藏 单元 的 多 层 感知 器 ， 则 网 
络 进行 非 线性 维度 归 约 


已 经 证 明 (Bourlard fll Kamp 1988)， 具 有 一 个 隐藏 层 的 自动 编码 MLP 实现 主 成 分 分 
析 (6. 3 节 )， 不 同 之 处 在 于 隐藏 单元 的 权重 不 是 使 用 特征 值 按 重 要 性 排序 的 特征 向 量 ， 但 
是 它 与 五 个 主 特征 向 量 生成 相同 的 空间 。 如 果 编 码 器 和 解码 器 不 是 一 层 ， 而 是 在 隐藏 单 
元 具有 S 形 非 线性 的 多 层 感 知 锅 ， 则 编码 顺 实 现 非 线性 的 维度 归 约 (Hinton 和 Salakhutdi- 
nov 2006), Æ 11. 13 节 ， 我 们 将 讨论 由 多 个 非 线 性 隐藏 层 的 “深度 网络。 

男 一 种 使 用 MLP 进行 维度 归 约 的 方法 是 通过 多 维 定 标 (6.7 节 )。Mao 和 JainC1995) 
说 明了 如 何 使 用 MLP 学 习 Sammon 映射 (Sammon mapping)。 回 忆 式 (6-37)，Sammon 应 
Jg X 





E(|X) = yee a en) owt: T (11-40) 


一 个 具有 d 个 输入 ， 互 个 隐藏 单元 和 &<d 个 输出 单元 的 MLP 用 来 实现 g Ox 100. 将 
d 维 输入 映射 到 一 个 & 维 回 量 ， 其 中 0 对 应 于 MLP 的 权重 。 给 定 一 个 数据 集 X 二 {x'},， 我 
们 可 以 使 用 梯度 下 降 直接 最 小 化 Sammon 应 力 来 学 习 MLP( 即 g(x109))， 使 得 & 维 表示 之 
间 的 距离 与 原始 空间 中 的 距离 尽 可 能 接近 。 


11. 12 学 习 时 间 


到 目前 为 止 ， 我 们 一 直 关 注 输入 一 次 全 部 提供 的 情况 。 在 某 些 应 用 中 ,输入 是 时 间 数 

我 们 需要 学 习 时 间 序 列 。 换 句 话 说 ， 输 出 也 可 能 随时 间 变 化 。 例 子 有 

e 序列 识别 (sequence recognition)。 这 是 把 给 定 的 序列 指派 到 多 个 类 中 的 一 个 。 语 音 
识别 是 一 个 例子 ， 其 中 输入 信号 序列 是 口语 语音 ， 而 输出 是 词 的 编码 。 也 就 是 说 ， 
输入 随时 间 变 化 ， 但 输出 不 随时 间 变 化 。 

e 序列 再 现 (sequence reproduction)。 这 里 ， 在 看 到 给 定 序列 的 一 部 分 之 后 ， 系 统 将 
预测 其 余部 分 。 时 间 序 列 预测 是 一 个 例子 ， 这 里 输入 是 给 定 的 ， 但 输出 是 变化 的 。 
e 时 间 关 联 (temporal association) 。 这 是 最 一 般 的 情况 ， 其 中 特定 的 输出 序列 作为 特 
定 的 输入 序列 之 后 的 输出 给 出 。 输 入 和 输出 序列 可 能 不 同 。 这 里 ， 输 入 和 输出 都 随 

时 间 变 化 。 


据 
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11. 12. 1 时 间 延 迟 神经 网 络 


识别 时 间 序 列 的 最 简单 方法 是 把 它 转换 成 空间 序列 。 然 后 可 以 利用 前 面 讨 论 的 任意 方法 
进行 分 类 。 在 时 间 延 迟 神经 网 络 (time delay neural network) 中 (Waibel 等 1989) ， 前 面 的 输入 
被 延迟 ， 以 便 与 最 后 的 输入 同步 ， 并 且 一 起 
作为 输入 提交 系统 (参见 图 11-20)。 然 后 ， 
使 用 回 后 传播 训练 权重 。 为 了 提取 局 部 于 
时 间 的 特征 ， 可 以 有 结构 化 连接 层 和 权重 
共享 ， 以 便 得 到 变换 的 时 间 不 变性 。 这 种 
结构 的 主要 限制 是 我 们 滑 过 序列 的 时 间 窗 
口 大 小 应 当 预 先 固定 。 


11. 12.2 递归 网 络 


在 递归 网 络 (recursive network) P, KÈ 
了 前 馈 连 接 之 外 ， 单 元 具有 上 自 连 接 或 到 前 
面 层 的 连接 。 这 种 递归 性 充当 短期 记忆 ， 图 11-20 一 个 时 间 延 迟 神经 网 络 。 长 度 为 工 的 时 间 
并 使 网 络 记 住 过 去 发 生 的 事 ，。 窗口 中 的 输入 被 延迟 ， 直 到 可 以 将 所 有 T 

在 大 部 分 情况 下 ， 我 们 使 用 部 分 递归 人 
网 络 ， 其 中 有 限 多 个 递归 连接 被 添加 到 多 层 感 知 器 中 (参见 图 11-21)。 这 结合 了 多 层 感知 
需 的 非 线性 近似 能 力 和 递归 的 时 间 表 达能 力 的 优点 ， 并 且 这 样 的 网 络 可 以 用 来 实现 三 种 时 
间 关 联 任务 中 的 任何 一 种 。 还 可 以 在 递归 加 后 连接 中 具有 隐藏 单元 ， 这 些 称 作 上 正文 单 元 [305 
(context unit) 。 给 定 具 体 应 用 ， 如 何 选 择 最 佳 的 网 络 结构 尚 无 已 知 的 形式 化 结果 。 








a) 隐藏 层 中 的 自 连 接 b) 输出 层 中 的 自 连 接 c) 从 输出 层 到 隐藏 层 的 连接 。 
还 可 以 有 这 些 情 况 的 组 合 


图 11-21 具有 部 分 递归 的 MLP 的 例子 。 递 归 连 接 用 虚线 显示 


如 果 序 列 具 有 较 小 的 最 大 长 度 ， 则 可 以 使 用 按时 间 展 开 (unfolding in time)， 将 任意 
的 递归 网 络 转换 成 等 价 的 前 馈 网 络 ( 参 见 图 11-22)。 为 不 同时 间 的 拷贝 创建 单独 的 单元 和 
连接 。 绪 果 网 络 可 以 用 回 后 传播 训练 ， 附 加 的 要 求 是 每 个 连接 的 所 有 拷贝 应 当 保 持 相 等 。 
与 权重 共享 一 样 ， 方 法 是 按时 间 对 不 同 权 重 的 改变 求 和 ， 并 用 平均 值 更 新 权重 。 这 称 作 通 
过 时 间 向 后 传播 (backpropagation throught time)(Rumelhart, Hinton 和 Willams 1986b) 。 
这 种 方法 的 问题 是 ， 如 果 序 列 的 长 度 很 长 ， 则 存储 需求 量 很 大 。 实 时 递归 学 习 (real time 
recursive learning) ( William 和 Zipser 1989) 是 一 种 训练 递归 网 络 而 不 展开 的 算法 ， 并 且 具 
有 可 以 用 于 任意 长 度 序列 的 优点 。 
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a) 递归 网 络 b) 4 步行 为 相同 的 、 等 价 的 
展开 网 络 


图 11-22 通过 时 间 向 后 传播 


11.13 深度 学 习 

当 线性 模型 不 充分 时 ， 一 种 可 能 的 方法 是 ， 用 输入 的 非 线 性 函数 定义 新 的 特征 (例如 ， 
高 阶 项 ) ， 然 后 在 这 些 特征 的 空间 上 建立 线性 模型 。 我 们 在 10.2 节 中 讨论 过 这 一 问题 。 这 
要 求 我 们 知道 这 种 好 的 基 郴 数 是 什么 。 另 一 种 可 能 的 方法 是 ， 使 用 6 章 讨 论 的 特征 提取 方 
法 (例如 ，PCA 或 Isomap) 来 学 习 新 空间 。 这 种 方法 的 优点 是 它们 都 在 数据 上 训练 。 然 而 ， 
最 好 的 方法 似乎 是 使 用 MLP， 在 它 的 隐藏 层 提 取 这 种 特征 。 这 种 MLP 的 优点 是 ， 第 一 层 
(特征 提取 ) 和 第 二 层 ( 组 合 这 些 特征 来 预测 输出 ) 在 耦合 和 监督 的 方式 下 一 起 学 习 。 

具有 一 个 隐 层 的 MLP 的 能 力 有 限 ， 而 使 用 具有 多 个 隐藏 层 的 MLP 可 以 学 习 输 入 的 
更 复杂 的 图 数 。 这 就 是 深度 神经 网 络 (deep neural networks) 背 后 的 思想 。 在 深度 神经 网 络 
中 ， 从 未 加 工 的 输入 开始 ， 每 个 隐藏 层 都 组 合 前 一 层 的 值 ， 学 习 输 入 的 更 复杂 的 函数 。 

深度 网 络 的 男 一 个 特点 是 ， 连 续 的 隐藏 层 对 应 于 更 抽象 的 表示 ， 直 至 到 达 输 出 层 。 输 
出 层 使 用 这 些 最 抽象 的 概念 学 习 输 出 。 

我 们 在 卷 积 神 经 网 络 中 看 到 了 一 个 这 种 例子 (11.8.3 节 )， 它 从 像素 开始 ， 得 到 边 ， 
然后 是 角 ， 等 等 ， 直 到 得 到 数字 。 但 是 ,为 了 定义 连通 性 和 整体 结构 ， 用 户 的 知识 是 必要 
的 。 考 虑 一 个 人 脸 识 别 MLP， 其 中 输入 是 图 像 的 像素 ， 每 个 隐藏 单元 都 连接 到 所 有 的 输 
入 。 在 这 种 情况 下 ， 网 络 不 知道 输入 是 人 脸 图 像 ， 甚 至 不 知道 输入 是 二 维 的 。 输 入 只 是 值 
的 癌 量 。 使 用 其 隐藏 单元 被 馈 入 局 部 二 维 小 片 的 卷 积 网 络 是 一 种 提供 这 一 信息 学 习 正 确 抽 
象 的 方式 。 

在 深度 学 习 中 ， 基 本 思想 是 以 最 小 的 人 力学 习 递 增 的 抽象 的 特征 层 (Bengio 2009), 3x 
是 因为 在 大 多 数 应 用 中 ， 我 们 不 知道 输入 有 什么 结构 、 有 何 种 依赖 关系 (例如 ， 局 部 性 ) 应 
在 训练 时 自动 发 现 。 正 是 这 种 依赖 、 模 式 或 规律 的 提取 允许 抽象 和 学 习 通 用 描述 。 
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训练 具有 多 个 隐藏 层 的 MLP 的 一 个 主要 问题 是 ， 在 把 误差 向 后 传播 到 先前 的 层 时 ， 需 
要 把 后 面 所 有 层 中 的 导数 相 乘 ， 使 梯度 变 成 零 。 这 也 就 是 展开 递归 神经 网 络 (11. 12. 2 节 ) 学 
习 很 慢 的 原因 。 在 卷 积 神经 网 络 中 这 不 会 发 生 ， 因 为 隐藏 单元 的 扇 人 和 扇 出 一 般 都 很 小 。 

通常 ， 深 度 神经 网 络 一 次 训练 一 层 (Hinton 和 Salakhutdinov 2006)。 每 一 层 的 目的 是 提取 馈 
入 它 的 数据 中 的 显著 特征 ， 而 像 11.11 节 讨 论 的 自动 编码 器 这 样 的 方法 都 可 以 用 于 这 一 目的 。 
附加 的 优点 是 为 此 可 以 使 用 未 标记 的 数据 。 这 样 ， 从 未 加 工 的 输入 开始 ， 训 练 一 个 自动 编码 器 ， 
然后 把 在 其 隐藏 层 学 习 的 编码 表示 作为 输入 ， 训 练 下 一 个 自动 编码 器 ， 以 此 类 推 ， 直 至 到 达 最 
后 一 层 。 最 后 一 层 使 用 标记 的 数据 ， 以 监督 的 方式 训练 。 一 旦 所 有 的 层 都 用 这 种 方式 逐 层 完成 
训练 ， 就 把 它们 都 组 装 在 一 起 ， 并 使 用 标记 的 数据 对 整个 网 络 进行 微调 。 

如 果 有 许多 标记 数据 和 强大 的 计算 能 力 ， 则 整个 深度 网 络 可 以 以 监督 的 方式 进行 训 
练 。 但 是 目前 的 共识 是 ， 使 用 非 监督 方法 初始 化 权重 比 随 机 初始 化 好 得 多 一 一 学 习 可 以 更 
快 ， 并 且 使 用 更 少 的 标记 数据 。 

次 度 学 习 方 法 是 有 吸引 力 的 ， 主 要 是 因为 它们 需要 较 少 的 人 工 干预 。 我 们 不 需要 手工 
制作 正确 的 特征 或 合适 的 基 函 数 ( 或 核 一 一 第 13 章 )， 也 不 必 担 心 合 适 的 网 络 结构 。 一 日 
我 们 有 数据 (如 今 我 们 有 “大 ”数据 ) 和 足够 的 计算 能 力 ， 我 们 就 只 需 等 待 ， 让 学 习 算 法 独自 
发 现 所 需要 的 一 切 。 

深层 学 习 背 后 的 多 层 抽象 思想 是 直观 的 。 不 仅 在 视觉 (手写 体 数字 或 面部 图 像 )， 而 且 
在 许多 应 用 中 ， 我 们 都 可 以 考虑 抽象 层 ， 并 发 现 这 种 抽象 表示 将 提供 更 丰富 的 信息 。 例 
如 ， 它 允许 可 视 化 和 更 好 的 问题 描述 。 

考虑 机 胡 翻 译 。 例 如 ， 从 一 个 英语 句子 开始 ， 在 从 对 英语 的 词法 、 句 法 和 语义 规则 编 
码 的 、 非 常 大 的 英语 句子 语料库 中 自动 学 习 的 多 层 处 理 和 抽象 中 ,我 们 将 得 到 最 抽象 的 表 
示 。 现 在 考虑 法 语 的 相同 句子 。 这 次 从 法 语 语料库 学 习 到 的 处 理 层 次 会 不 相同 ， 但 如 果 两 
个 句子 意思 相同 ， 在 最 抽象 的 、 独 立 于 语言 的 层次 中 ， 它 们 应 该 具有 非常 相似 的 表示 。 


11. 14 注释 


人 工 神经 网 络 的 研究 历史 与 数字 计算 机 一 样 长 。McCulloch 和 Pitts(1943) 提 出 了 人 工 
神经 网 络 的 第 一 个 数学 模型 。Rosenblatt(1962) 提 出 了 感知 器 模型 和 学 习 算 法 。Minsky 和 
Papert(1969) 指 出 了 单 层 感知 器 的 局 限 性 (例如 ，XOR 问题 )， 并 且 由 于 那 时 还 没有 训练 具 
有 隐藏 层 的 多 层 感知 器 的 算法 ， 所 以 除了 少数 地 方 之 外 ， 人 工 神 经 网 络 的 工作 几乎 都 停止 
了 。Hopfield(1982) 的 文章 带 来 了 神经 网 络 的 复兴 。 随 后 出 现 了 并 行 分 布 处 理 (PDP) 研 究 
小 组 编写 的 两 卷 并 行 分 布 处 理 的 书 (Rumelhart 和 McClelland 1986) 。 似 乎 向 后 传播 几乎 同 
时 在 多 个 地 方 被 发 明 ， 而 单 层 感知 圳 的 局 限 性 也 不 复 存 在 。 

从 20 世纪 80 年 代 中 期 开始 ， 出 现 了 关于 人 工 神 经 网 络 模型 的 大 量 研究 ， 来 自 各 个 学 
科 : 物理 学 、 统 计 学 、 心 理学 、 认 知 科 学 、 神 经 系统 科学 、 语 言 学 ， 更 不 必 说 计算 机 科 
学 、 电 气 工 程 和 目 适 应 控制 了 。 或 许 ， 人 工 神经 网 络 研 究 的 最 重要 贡献 是 这 种 沟通 不 同学 
科 ， 尤 其 是 统计 学 和 工程 。 多 亏 如 此 ， 机 器 学 习 领 域 现 在 得 以 确立 。 

现在 ， 该 领域 更 加 成 熟 ， 目 标 被 更 适当 、 更 好 地 确定 。 对 向 后 传播 的 批评 之 一 是 ， 这 
不 是 生物 学 的 言 之 有 理 ! 尽管 术语 “神经 网 络 ” 仍 然 被 广泛 使 用 ， 但 是 通常 把 神经 网 络 模 型 
(例如 ， 多 层 感知 器 ) 理 解 为 非 参 数 估 计 方 法 ， 并 且 分 析 它 的 最 佳 方法 是 使 用 统计 学 方法 。 

例如 ， 一 种 类 似 于 多 层 感 知 器 的 统计 学 方法 是 投影 追踪 (projection pursuit) (Friedman 
and Stuetzle 1981) ， 它 表示 为 
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不 同 的 是 每 个 “隐藏 单元 "都 具有 自己 的 函数 内 * ), RETE MLP 中 ， 它 们 都 是 S 型 函数 。 在 第 
12 章 中 ， 我们 将 看 到 男 一 种 称 作 径 向 基 消 数 的 神经 网 络 结构 ， 它 在 隐藏 单元 使 用 高 斯 函数 。 

有 各 种 神经 网 络 教科 书 。Hertz，Krogh 和 Palmer 1991 是 最 时 的 ,仍然 值得 一 读 。 
Bishop 1995 重点 是 模式 识别 ， 并 详细 讨论 了 可 以 用 于 训练 的 各 种 优化 算法 ， 以 及 贝 叶 斯 
FE, ES TIRER. Ripley 1996 从 统计 学 的 角度 分 析 了 神经 网 络 。 

人 工 神经 网 络 ， 例 如 多 层 感 知 器 ， 具 有 各 种 成 功 应 用 。 除 了 成 功 地 用 于 上 自 适 应 控制 、 

音 识别 和 视频 之 外 ， 有 两 点 值得 注意 。Tesauro 的 TD-Gammon 程序 (Tesauro 1994) 使 
用 增强 学 习 ( 第 18 章 ) 训 练 多 层 感知 器 ， 并 在 大 师 级 玩 西 洋 双 陆 棋 。Pomerleanu 的 
ALVINN 是 一 个 神经 网 络 ， 通 过 观察 驾驶 员 学 习 5 分 钟 之 后 ， 它 可 以 自动 驾驶 朋 式 货车 ， 
速度 达 每 小 时 20 英里 (Pomerleau 1991), 

近年 来 ， 随 着 深度 学 习 和 深层 神经 网 络 的 出 现 ， 神 经 网 络 研 究 看 到 了 巨大 的 推动 力 ， 
并 且 我 们 看 到 它们 已 应 用 在 许多 领域 ， 例 如 ， 金 融 、 生 物 学 、 自 然 语 言 处 理 等 ， 产 生 了 令 
人 印象 深刻 的 结果 。 更 多 信息 参见 deeplearning. net。 随 着 每 年 都 有 更 大 的 数据 和 更 便宜 
的 处 理 硬 件 ， 它 们 可 望 在 不 久 的 将 来 更 受 欢迎 


11.15 JÆ 
1. 给 出 计算 其 输入 的 NOT 的 感知 器 。 
解 : 


y = s(— x +0. 5) 
2. 给 出 计算 其 2 个 输入 的 NAND 的 感知 顺 。 
3. 给 出 计算 其 3 个 输入 的 奇偶 性 的 感知 器 。 
解 : 
hi =s m £51 234— 1.5) (001) 
hp =s(— 2, + 2t; 24—1.5) (010) 
ha =sl2a) — £r = zy 1.592 (100) 
hi —sGm te tzr 25) (lll) 
y —sGy + hz + h; Th, — 0. 9 
4 个 隐藏 单元 对 应 Plays ma, zs) 的 奇偶 性 为 1 的 4 种 情况 ， 即 001、010、100 和 
111, Rie OR 它们 ， 计 算 整 个 输出 。 注 意 ， 另 一 种 可 能 的 方法 是 使 用 2 位 奇偶 性 计算 
3 位 奇偶 人 性， (wi XOR x;)XOR Tz. 
4. 当 隐 藏 单元 使 用 tanh 函数 而 不 是 使 用 S 形 函数 时 ， 推 导 更 新 方程 。 使 用 事实 tanh’ = 
CI-—tatih") , 
5. ABA 2 个 隐藏 层 的 MLP 推导 更 新 方程 。 
解 : Foxe X m BU 77 e 


d 
Zi, —sigmoid(wi,x) = sigmoid ( >) wij; 十 wio ) h = 1,» ,Hi 
j=1 


H, 


221 = sigmoid( wz;z, ) — sigmoid ( > Wan Zh + wr ) i= 15**«4, H. 
h—0 
H, 


PEES iy -— 
yi mua = S Uža Fw 
l=1 
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考虑 回归 : 
E= ED 
我 们 只 是 向 后 传播 ， 即 继续 链 规则 ， 我 们 可 以 把 一 层 的 误差 写成 其 后 面 层 的 误差 
的 函数 ， 把 输出 层 的 监督 误差 带 到 前 面 的 层 : 
err, =r, — yi Avy, = 22, err;Z 2, 


erro, = | 2; err;v; 上 a(l 一 22 过 Arzoox = 12, erT?;Z 4 


err, = | 2; eTT2/UU 2j, Jeu (l—2z,J>Aw),; = 12, EITT j 


. yk —-T AA 个 隐藏 层 的 MLP 结构 ， 其 中 还 存在 直接 从 输入 到 输出 单元 的 权重 。 解 
释 这 种 结构 何 时 是 有 益 的 ， 如 何 训 练 它 。 
7. 奇偶 性 是 循环 移动 不 变 的 。 例 如 ，“0101” 和 “1010” 具 有 相同 的 奇偶 性 。 使 用 这 个 提示 ， 
提出 一 个 学 习 奇 偶 函 数 的 多 层 感 知 器 。 
8. 在 级 联 相 关中 ， 冻 结 前 面 已 经 存在 的 权重 有 何 优点 ? 
9. 为 实现 最 小 化 Sammon 应 力 ( 式 (11-40)) 的 Sammon 映射 的 MLP， 推 性 更 新 方程 。 
10. 在 11.6 节 ， 我 们 讨论 了 一 个 具有 两 个 隐藏 层 的 MLP 如 何 实 现 分 段 常 数 近似 。 证 明 : 
如 果 最 后 一 层 的 权重 不 是 稼 数 而 是 输入 的 线性 函数 ， 则 我 们 可 以 实现 分 段 线性 近似 。 
11. 为 软 权 重 共 享 推导 更 新 方程 。 
解 : 为 了 简单 起 见 ， 对 两 类 分 类 假设 一 个 单 层 网 络 : 
y = sigmoid( >) wx!) 


c» 


增 广 误差 为 
E' id logy’ +a D log asp, Gu) 
其 中 p;(wi)~N(m;, $). 注意 ， ), 包 括 售 偏 倚 在 内 的 所 有 权重 。 当 使 用 梯度 下 
降 时 ， 得 到 
Aw) = Hr — ya — p Pn Gu) 8 2 
其 中 | | 
= a 


wa 4px j Hawes. BRN KE HIER BM me. f FH 
这 种 策略 ， 也 可 以 更 新 混合 参数 ， 例 如 ， 
(wi — m;) 


Am; — qÀ 2 wi (wi) : 


z;Cw,) UF 1. WR 记 很 可 能 来 自分 支 1。 在 这 种 情况 下 ， 更 新 mj; 使 之 更 靠近 它 所 
代表 的 权重 w;。 这 是 一 个 迭代 聚 类 过 程 ， 我 们 将 在 第 12 章 更 详细 地 讨论 这 种 方法 ， 
例如 ， 参 见 式 (12-5)。 

12. 在 自动 编码 网 络 中 ， 如 何 决 定 隐藏 单元 的 个 数 ? 

13. MLP 结构 的 增 量 学 习 可 以 看 作 状 态 空间 搜索 。 操 作 是 什么 ? 优 度 函 数 是 什么 ? 什么 类 型 
的 搜索 策略 是 合适 的 ? 以 这 样 方式 定义 这 些 ， 使 得 动态 节点 创建 和 级 联 相 关 都 是 特例 。 

14. 对 于 图 11-22 给 出 的 MLP， 为 展开 网 络 推导 更 新 方程 
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局 部 模型 





我 们 继续 讨论 多 层 神经 网 络 ， 考 察 第 一 层 包含 局 部 接受 单元 的 模型 ， 这些 局 部 接受 单 
元 啊 应 输入 空间 的 局 部 区 域 中 的 实例 。 上 面 第 二 层 对 这 些 局 部 区 域 学 习 回 归 或 分 类 函数 。 
我 们 讨论 找 出 重要 局 部 区 域 以 及 这 些 区 域 中 的 模型 的 学 习 方 法 。 


12.1 引言 


进行 函数 近似 的 一 种 方法 是 将 输入 空间 划分 成 局 部 小 片 ， 并 且 在 每 个 局 部 小 片 分 别 学 
习 拟 合 。 在 第 7 章 ， 我 们 讨论 了 聚 类 的 统计 学 方法 ， 它 使 我 们 能 够 对 输入 实例 分 组 并 对 输 
入 分 布 建 模 。 竞 争 方 法 是 用 于 在 线 聚 类 的 神经 网 络 方法 。 本 章 讨论 & 均 值 的 在 线 版 本 以 及 
两 种 神经 网 络 扩展 : 自 适应 共鸣 理论 (ART) 和 自 组 织 影射 (SOM)。 

然后 ， 我 们 讨论 一 旦 输入 局 部 化 ， 如 何 实 现 监 督学 习 。 如 果 局 部 小 片上 的 拟 合 是 常 
量 ， 则 该 技术 称 作 径 向 基 函 数 (RBF) 网 络 ; 如 果 拟 合 是 输入 的 线性 函数 ， 则 称 作 混合 专家 
技术 (MoE) 。 我 们 讨论 回归 和 分 类 ， 并 与 第 11 章 讨 论 的 MLP 方法 进行 比较 。 


12.2 ”竞争 学 习 


在 第 7 章 ， 我们 使 用 半 参 数 高 斯 混合 密度 ， 它 假定 输入 来 自 & 个 高 斯 源 中 的 一 个 。 在 
本 节 ， 我 们 做 相同 的 假设 ， 数 据 中 存在 & 个 分 组 (或 和 能)， 但 是 我 们 的 方法 不 是 概率 方法 ， 
因为 我 们 不 将 参数 模型 强加 在 数据 源 上 。 另 一 个 区 别 是 我 们 提出 的 学 习 方 法 是 在 线 的 : 在 
训练 期 间 我 们 并 没有 全 部 样本 。 我 们 逐个 接收 实例 并 更 新 模型 参数 。 使 用 术语 竞争 学 习 
(competitive learning) 是 因为 这 些 分 组 ， 更 确切 地 说 ,代表 这 些 分 组 的 单元 为 成 为 代表 实 
例 而 相互 竞争 。 这 种 方法 也 称 为 胜 者 全 取 (winner-take-all) 。 它 就 像 一 个 分 组 获胜 并 得 到 
更 新 ， 而 其 他 分 组 则 完全 不 更 新 一 样 。 

与 第 7 章 讨 论 的 批 处 理 方 法 相反 ， 这 些 方法 本 身 可 以 用 于 在 线 聚 类 。 在 线 方法 具有 通常 
的 优点 : 1) 不 需要 额外 的 存储 为 保存 整个 训练 集 ; 2) 每 步 更 新 简单 、 易 于 实现 (例如 ， 用 硬 
件 实现 ); 3) 输 入 分 布 可 以 随时 间 而 改变 ， 并 且 模 型 可 以 自动 地 适应 这 些 改变 。 如 果 我 们 使 
用 批 处 理 算法 ， 则 我 们 将 需要 收集 新 样本 ， 并 且 从 头 开 始 在 整个 样本 上 运行 批 处 理 方 法 。 

从 12.3 节 开始 ， 我 们 还 将 讨论 这 种 方法 如 何 后 跟 一 种 监督 方法 ， 以 便 学 习 回 归 或 分 
类 问题 。 这 将 是 一 个 两 阶段 系统 ， 可 以 用 两 层 网 络 实现 ， 其 中 第 一 阶段 ( 层 ) 对 输入 密度 建 
模 并 找 出 相应 的 局 部 模型 ， 而 第 二 阶段 是 产生 最 终 输出 的 局 部 模型 。 


12.2.1 Æ% k 均值 
在 式 (7-3) 中 ， 我们 定义 重 构 误 差 为 
EC) O =>) Dil — m: |? (12-1) 
其 中 
1 [x — m, || = min, | x’ — m, | 


bi = 
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X= {xh ERER, M m GS, +, RRP. WR m; 是 x' 的 欧 氏 距离 最 接近 的 中 
心 ， 则 5b, 为 1。 好 像 是 所 有 的 m US1, =, ORP, M mI E. NER. 
k 均值 的 批 处 理 算 法 按 下 式 更 新 中 心 . 
i > Bix" 


; 一 一 (12-3) 
m 37 
一 旦 使 用 式 (12-2) 选 取 获 胜 者 ， 它 将 最 小 化 式 (12-1)。 正 如 我 们 先前 看 到 的 ， 计 算 b 和 更 
新 m; 的 这 两 个 步骤 迭代 ， 直 到 收 钱 ，。 
通过 进行 随机 梯度 下 降 、 了 逐个 考虑 实例 并 在 每 一 步 进行 少许 更 新 而 不 忘记 先前 的 更 
新 ,我 们 可 以 得 到 在 线 衣 均值 (online k-means)。 对 于 单个 实例 ， 重 构 误 差 为 








i ;1 Ty 
EC{m,}*_, |») = z 2l» —m,|? — 72 2,5 (x! — m; )’ (12-4) 
Hp & 的 定义 同 式 (12-2)。 对 上 式 使 用 梯度 下 降 ， 得 到 每 个 实例 兰 的 更 新 规则 : 
Amy =— 9 2 = pb! (a; — my) (12-5) 
ij 


这 把 最 近 的 中 心 (其 4 二 1) 向 输入 移动 一 个 因子 %。 其 他 中 心 的 OAD SFO, 并且 
不 更 新 (参见 图 12-1) 。 批 处 理 过 程 也 可 以 通过 将 式 (12-5) 在 所 有 的 上 上 求 和 来 定义 。 与 任 
何 梯度 下 降 过 程 一 样 ， 也 可 以 添加 一 个 动量 项 。 为 了 收 钱 ，7 逐渐 递减 到 0。 但 是 ， 这 意 
味 着 稳定 性 与 可 塑性 的 两 难 选择 (stability-plasticity dilemma): MR » m] 0 递减， 则 网 络 
变 得 稳定 ， 但 是 因为 更 新 变 得 太 小 ， 所 以 失去 了 对 随时 出 现 的 新 模式 的 适应 性 。 如 果 我 们 
一 直 保 持 7 较 大 ， 则 m,a HERD o 

在 线 & 均 值 的 伪 代 码 在 图 12-2 中 。 这 是 图 7-3 的 批 处 理 算法 的 在 线 版 本 。 


初始 化 m; (i 二 1]，…*，k&)， 例 如 为 个 随机 的 x 人 
Repeat 
For 随机 次 序 的 所 有 x EX 


i<-arg min; || x‘ —m; || 


m,-*—m; + y(x' —m;) 


Until m SX 





Xi 


图 12-1 阴影 圆 是 中 心 ， 空 心 圆 是 输入 实例 。R& 均 图 12-2 在线- 均值 算法 。 批 处 理 版 本 在 
值 算法 的 在 线 版 本 沿 方向 (x 一 m;) 将 最 近 图 7-3 中 
的 中 心 移动 一 个 因子 7 
竞争 网 络 可 以 用 单 层 递归 网 络 实现 ， 如 图 12-3 所 示 。 输 入 层 包 含 输 入 向 量 x. ERK 
有 偏 倚 单 元 。 输 出 单元 的 值 是 襄 ， 并 且 它 们 是 感知 着: 
b, = mix (12-6) 
然后 ， 我 们 需要 选择 最 大 的 bs HKEEREN 1, MRA OUADAO. MRR 
想 用 纯粹 的 神经 系统 方法 做 所 有 的 事 ， 即 使 用 并 发 操作 处 理 单 元 网 络 ， 则 最 大 值 的 选择 可 
以 用 侧 抑 制 (lateral inhibition) 来 实现 。 如 图 12-3 所 示 ， 每 个 单元 有 一 个 到 自身 的 兴奋 的 
递归 连接 ( 即 具 有 正 权 重 ) 和 到 其 他 输出 单元 的 抑制 的 递归 连接 ( 即 具 有 负 权 重 )。 使 用 适当 
的 非 线 性 激活 也 数 和 正 的 、 负 的 递归 权重 值 ， 这 样 的 网 络 在 某 些 迭 代 后 收敛 于 一 种 状态 ， 
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其 中 最 大 值 变 成 1， 而 其 余 的 变 成 0(Grossberg 1980, Feldman 和 Ballard 1982) , 

式 (12-6) 中 使 用 的 点 积 是 一 种 相似 性 度量 ， 
并 且 我 们 在 5. 5 节 ( 式 (5-25)) 中 看 到 ， 如 果 m, 
具有 相同 的 范 数 ， 则 具有 最 小 欧 氏 距离 
| m, — x | f 3& 76 55 RUE CK UBL m x 的 单元 
相同 。 

这 里 和 后 面 ， 当 我 们 讨论 其 他 竞争 方法 时 ， 
我 们 使 用 欧 氏 距离 ， 但 是 我 们 应 当 记 住 ， 使 用 
欧 氏 距离 意味 着 所 有 输入 属性 具有 相同 的 方差 
且 它 们 是 不 相关 的 。 如 果 不 是 这 种 情况 ， 则 应 
当 反 映 在 距离 度量 中 (即使 用 马 氏 距离 )， 或 者 





x, X4 
和 
= z RRMA, b 
MECA H PCA). 出 层 有 递归 连接 的 上 个 感知 器 的 网 
我 们 可 以 将 式 (12-5) 改 写 为 络 。 虚 线 是 递归 连接 ， 其 中 带 箭头 
Am‘, = miz! — nbim, (12-7) 的 是 兴奋 的 ， 而 带 圆 点 的 是 抑制 的 。 
让 我 们 回想 一 下 ，ww 是 从 zy 到 b E BE VES ase iege rae 
` : ` 出 。 ES 1 lH 
— Jii à 
重 。 正 如 我 们 在 第 ATIPAN 更 新 重 的 适当 赋值 下 ， 最 大 的 抑制 了 其 
Ami, = iz (12-8) 他 所 有 的 。 这 具有 实际 结果 : 其 mm 
是 Hebbian 学 习 (Hebbian learning)， 它 定义 更 最 接近 x 的 一 个 单元 以 其 5 等 于 1 
新 为 前 突 触 与 后 突 触 单 元 值 的 乘积 。 它 是 作为 Fk, nln 


神经 可 塑性 模型 提出 的 : 一 个 突 触 变 得 更 重要 ， 如 果 该 连接 的 前 后 单元 都 同时 激活 ， 表 明 
它们 是 相关 的 。 然 而 ， 仅 用 Hebbian 学 习 ， 权 重 的 增加 无 界 (zx; 宇 0)， 并 且 我 们 需要 第 二 
种 力量 来 减少 未 更 新 的 权重 。 一 种 可 能 的 方法 是 显 式 地 规范 化 权重 ,使 得 上 |m;| = 二 1。 如 果 
Am, >0 和 Am, 二 0(1 关 7) ,一旦 我 们 把 mm 规范 化 为 单位 向 量 ， 则 mi 减少 。 男 一 种 可 能 的 
方法 是 引进 权 豪 减 项 (Oja 1982), 而 式 (12-7) 的 第 二 项 就 可 以 看 作 这 样 的 项 。Hertz， 
Krogh 和 Palmer(1991) 更 详细 地 讨论 了 竞争 网 络 和 Hebbian 学 习 ， 并 且说 明 如 何 学 习 这 
种 网 络 来 做 PCA。Mao 和 Jain(1995) 讨 论 了 PCA Al LDA 的 在 线 算法 。 

正如 我 们 在 第 7 章 中 所 看 到 的 ， 一 个 问题 是 避免 死 中 心 ， 即 存在 但 没有 被 实际 利用 的 
中 心 。 在 竞争 网 络 中 ， 它 对 应 于 因为 被 初始 化 远离 任何 输入 而 从 来 未 能 赢得 欧 争 的 中 心 。 
存在 多 种 方法 避免 它 : 

1) 可 以 通过 随机 地 选择 输入 实例 来 初始 化 m;， 并 确保 它们 从 有 数据 的 地 方 开 始 。 

2) 可 以 使 用 领导 者 聚 类 算法 并 逐个 添加 单元 ， 总 是 将 它们 添加 在 需要 它们 的 地 方 。 
一 个 例子 是 ART 模型 ， 将 在 12. 2. 2 节 讨 论 它 。 

3) 更 新 时 ， 不 仅 更 新 最 近 单 元 的 中 心 ， 而 且 也 更 新 某 些 其 他 中 心 。 随 着 它们 被 更 新 ， 
它们 也 向 输入 移动 ， 了 逐渐 移 向 输入 空间 存在 输入 的 部 分 ， 并 最 终 启 得 苑 争 。 一 个 例子 是 我 
们 将 在 12. 2. 3 节 讨 论 的 SOM, 

4) 另 一 种 可 能 是 引进 良心 (conscience) 机 制 (Desieno 1988): 当前 赢得 竞争 的 单元 有 
负 罪 感 并 允许 其 他 单元 获胜 。 


12.2.2 自 适应 共鸣 理论 
在 计算 参数 前 ， 应 当知 道 并 指定 分 组 数 k。 男 一 种 方法 是 增 量 的 ， 它 从 单个 分 组 开始 ， 
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并 在 需要 时 添加 新 的 分 组 。 作 为 增 量 算法 的 一 个 例子 ， 我 们 讨论 自 适 应 共鸣 理论 (Adap- 
tive Resonance Theory，ART) 算 法 (Carpenter Sp n B 
和 Grossberg 1988), 在 ART 中 ， 给 定 一 个 输 P j 
和 人 入， 所 有 的 输出 单元 都 计算 它们 的 值 ， 并 选择 “ 
与 输入 最 相似 的 单元 。 如 果 使 用 如 式 (12-6) 中 
那样 的 点 积 ， 则 它 是 具有 最 大 值 的 单元 ; 如 果 
使 用 欧 氏 距离 ， 则 它 是 具有 最 小 值 的 单元 。 
假定 我 们 使 用 欧 氏 距离 。 如 果 最 小 值 小 于 
FEA Be VE 358 48 (vigilance) ff] BB] fé ,— D] 5j e £X 
k 均值 一 样 进行 更 新 。 如 果 距 离 大 于 警戒 值 ， 
则 增加 一 个 新 的 输出 单元 ， 并 且 它 的 中 心 用 该 
实例 初始 化 。 这 定义 了 一 个 超 球 ， 其 半径 由 定 


YA A E. / p^. O oo 图 12-4 M 区 到 最 近 中 心 的 距离 小 于 警戒 值 
X BE | 单元 范 FE] 体 积 HY) i FLEA E o EN 要 有 p» 中 心 与 在 线 k 均值 一 样 进 行 更 新 





x, 


2 
- - 
ws oe? 
-—--- 


个 输入 不 能 被 任何 单元 覆盖 ， 就 增加 一 个 新 单 然而 ， 忆 与 任何 中 心 都 不 足够 近 ， 应 
元 (参见 图 12-4), 当 在 该 位 置 创建 一 个 新 的 分 组 
记 和 警戒 值 为 op， 在 每 次 更 新 时 ， 我 们 使 用 下 式 : 
b; = |m; — x |= min || ma — x' | 
m, x in b; —p (12-9) 


Am, = 7(x' — m;) 否则 
EEA Db dE BE SO TER BIR LEA, 3f A RRR 
离 ， 误 差 像 式 (12-4) 那 样 定 义 ， 则 这 表明 每 个 实例 允许 的 最 大 重 构 误 差 为 警戒 值 的 平方 。 


12.2.3 自 组 织 映 射 


避免 死 单 元 的 一 种 方法 是 不 仅 更 新 获胜 者 ， 而 且 也 更 新 某 些 其 他 单元 。 在 Kohonen 
(1990，1995) 提 出 的 自 组 织 映 射 (SelfOrganizing Map, SOM) 中， 单元 下 标 ( 如 m; PAN iDEN 
该 单元 的 邻 域 。 当 m 是 最 近 的 中 心 时 ， 除 了 更 新 m; 之 外 ， 还 更 新 它 的 近邻 。 例 如 ， 如 果 邻 
MARIA 2, Wim». m. ma. mou. 
但 是 随 着 邻 域 的 加 大 ， 使 用 较 小 的 权重 。 如 果 i 
是 最 近 中 心 的 下 标 ， 则 这 些 中 心 按 下 式 更 新 
Am, = ye (l,i) (x — m,) (12-10) 
其 中 el, i) FEAR BHR, 4 15i ff, eO. D— 
1， 并 随 着 | /一 :| 的 增 大 而 减 小 。 例 如 ， 定 义 它 
HAWAN Ci, o): 


Xj 








s i | (Q—i» f : 

e(l,i) = US 25) Jae 11) : 
为 了 收敛 ， 邻 域 函数 的 支 集 随时 间 减 小 ， 例 如 ”图 12-5 在 SOM 中, 不仅 最 近 的 单元 ， 而 且 还 
o 减 小 ， 最 终 只 有 一 个 获胜 者 被 更 新 。 有 它 的 近邻 (就 下 标 而 言 ) 都 向 输入 移 
由 于 邻 域 单 元 也 向 输入 移动 ， 所 以 避免 了 20, Heu. SUN 1e AUNTS E 

- is s : n 邻 被 更 新 。 注 意 ， 这 里 mp 远离 m, 

死 单元 ， 因 为 从 它们 的 邻近 朋友 那里 得 到 一 点 但 是 随 着 它 与 m 一 起 更 新 , HAY 
初始 帮助 之 后 ， 稍 后 的 某 个 时 候 它 们 将 赢得 竞 m; EE md. 它们 最 终 


争 ( 参 见 图 12-5), 也 成 为 输入 空间 的 近邻 
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更 新 近邻 具有 如 下 效果 : 即使 中 心 被 随机 初始 化 ， 但 因为 它们 一 起 朝 着 相同 的 输入 移 
动 ， 所 以 一 旦 系统 收 僵 ， 具 有 邻近 下 标的 单元 也 将 是 输入 空间 的 近邻 。 

在 大 部 分 应 用 中 ， 单 元 被 组 织 成 二 维 映 射 。 即 每 个 单元 将 具有 两 个 下 标 mj, HSR 
域 定 义 在 两 个 维 上 。 如 果 mv 是 最 近 的 中 心 ， 则 中 心 按 下 式 更 新 

Ame, = ge Ckolsisj) (x! — mu) (12-12) 

Hp Sf Jak C EIE HEB). Ua, XE T ae d 维 输入 空间 的 二 维 地 形 图 (topo- 
graphical map) 。 该 图 包含 了 空间 的 高 密度 部 分 的 许多 单元 ， 而 对 于 没有 输入 的 部 分 则 不 
显示 其 中 的 任何 单元 。 一 有 旦 该 图 收敛 ， 则 原始 空间 靠近 的 输入 被 映射 到 该 图 中 靠近 的 单 
元 。 从 这 种 角度 讲 ， 该 图 可 以 解释 为 做 一 个 非 线 性 形式 的 多 维 缩放 ， 将 原来 的 x 空间 映射 
到 二 维 (i，7) 上 。 类 似 地 ， 如 果 映 射 是 一 维 的 ， 则 单元 放置 在 输入 空间 的 最 大 密度 的 曲线 
上 ， 作 为 主 曲 线 (principal curve). 


12.3 BORAH 


在 隐藏 单元 使 用 点 积 的 多 层 感知 器 中 (第 11 章 ) ， 每 一 个 隐藏 单元 都 定义 了 一 个 超 平 
面 ， 并 且 由 于 S 形 函 数 的 非 线 性 ， 隐 藏 单 元 具有 0—1 之 间 的 值 ， 对 实例 关于 超 平面 的 位 
置 编码 。 每 个 超 平面 都 将 输入 空间 一 分 为 二 ， 并 且 对 于 给 定 的 输入 ， 通 常 许 多 隐藏 单元 都 
具有 非 零 输出 。 这 称 作 分 布 表示 (distributed representation) ， 因 为 输入 被 许多 隐藏 单元 的 
同时 激活 编码 。 

另 一 种 可 能 性 是 局 部 表示 (local representation) ， 对 于 给 定 的 输入 ， 只 有 一 个 或 多 个 
单元 是 活跃 的 。 就 像 这 些 局 部 调整 的 单元 (locally tuned unit) 在 它们 之 间 划 分 输入 空间 ， 
并 且 只 对 某 些 输入 具有 选择 性 。 输 入 空间 的 单元 中 具有 非 零 啊 应 的 部 分 称 作 接受 域 (recep- 
tive field)。 输 入 空间 则 被 这 样 的 单元 覆盖 。 

在 大 脑 皮层 的 多 处 都 发 现 了 具有 这 种 响应 特征 的 神经 元 。 例 如 ， 视 觉 皮 层 细胞 对 刺激 
有 选择 地 响应 ， 既 局 部 于 视网膜 的 位 置 ， 又 局 部 于 视觉 方 向 的 角度 。 这 种 局 部 调整 的 细胞 
通常 排列 在 大 脑 皮层 图 上 ， 它 与 在 SOM 中 一 样 ， 细 胞 对 其 响应 的 变量 值 随 它们 在 图 中 的 
位 置 而 变化 。 i 

局 部 性 意味 着 有 一 个 距离 函数 ， 它 度 19 
量 给 定 输入 x 和 单元 h 的 位 置 m, BERT og 
Ee, KERR K RR |x—m,|. 07 
Jae FX Me] jw; PA EG 4 x — m, RRA, gg 
并 且 随 着 它们 的 相似 性 减 小 而 减少 . Hg 
常 ， 我 们 使 用 高 斯 函数 (参见 图 12-6): 0.4 


— 2 
pi = exp| — Ix m | | (12-13) 98 
2 5j, 02 


严格 地 说 ， 这 不 是 高 斯 密度 ， 但 是 我 ，， 
们 还 是 使 用 了 相同 的 名 字 。 m; 和 sj 分 别 表 


0 


示 局 部 单元 ; 的 中 心 和 展 宽 , 这 样 定义 了 了 了 了 了 9123 4 3 
一 个 径 向 对 称 的 基 函 数 。 以 使 用 更 复杂 的 “图 12-6 用 于 径 向 基 哨 数 网 络 的 钟 形 函 数 的 一 维 

— = ex 形式 。 这 个 函数 有 m=0, s—1. ERM 
模型 为 代价 ， 我 们 可 以 使 用 梯 球 ,不 同 的 Li ee Mes aco: 
维 具 有 不 同 的 展 宽 ， 甚 至 使 用 马 氏 距离 ， 1。 在 (m 一 3s，m 十 3s) 中 它 等 于 零 ， 但 是 


人 允许 相关 的 输入 (见习 题 2) 。 BR BS DX [8] SE (m — 2s, m+2s) 
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使 用 这 种 局 部 基 函 数 的 基本 思想 是 ， 在 输入 数据 中 存在 一 些 实例 的 分 组 或 艇 ， 而 对 每 个 
徐 ， 我 们 定义 一 个 基 消 数 轧 ， 当 实例 x 属于 簇 h 时 它 不 为 零 。 我 们 可 以 使 用 12. 2 节 讨 论 的 
任意 在 线 竞 争 方法 来 找 出 中 心 m; A 种 简单 的 且 有 效 的 启发 式 方法 来 找 出 展 宽 ， 一 旦 我 们 
求 出 中 心 ， 我 们 就 可 以 找 出 簇 中 的 最 远 实例 ， 并 令 5 为 它 到 簇 中 心 距离 的 一 半 。 我 们 本 来 也 
可 以 使 用 1/3,， 但 是 我 们 宁愿 保守 一 点 。 我 们 还 可 以 使 用 统计 聚 类 方法 找 出 簇 参 数 。 例 如 ， 
在 高 斯 混合 分 布 上 使 用 第 7 章 讨论 的 EM 方法 ， 找 出 艇 参数 ， 即 均值 、 方 差 ( 和 协 方差 )。 

pich=1, =, MEX f —T Bg H 维 空 间 ， 并 且 形 成 x 的 新 表示 。 我 们 也 可 以 使 
用 如 ( 式 (12-2)) 对 输入 编码 ， 但 是 九 7390/1. p, 具有 其 他 的 优点 ， 它 用 (0，1) 中 的 值 对 点 
到 其 中 心 的 距离 编码 。 该 值 衰减 到 0 的 速度 依赖 于 so B 12-7 给 出 了 一 个 例子 ， 并 将 这 种 
局 部 表示 与 多 层 感知 器 使 用 的 分 布 表示 进行 比较 。 由 于 高 斯 函数 是 局 部 的 ， 所 以 与 使 用 分 
布 表 示 相 比 ， 通 常 它 需 要 更 多 的 局 部 单元 ， 当 输入 是 高 维 的 时 尤其 如 此 。 


Wh wi 





Xa 





空间 1 pP»p3) 中 的 局 部 表示 空间 (h, h) 中 的 分 布 表示 


x^: (1.0, 0.0, 0.0) x^: (1.0, 1.0) 
x^: (0.0, 0.0, 1.0) x^: (0.0, 1.0) 
x: (1.0, 1.0, 0.0) x: (1.0, 0.0) 


图 12-7 局 部 表示 与 分 布 表 示 之 间 的 差别 。 值 是 硬 的 0/1 值 。 我 们 可 以 使 用 (0，1) 之 间 的 软 值 
得 到 携带 更 多 信息 的 编码 。 在 局 部 表示 中 ， 用 高 斯 RBF 来 做 ， 它 使 用 到 中 心 m; 的 距 
离 ; 而 在 分 布 表 示 中 ， 使 用 S 形 函 数 来 做 ， 它 使 用 到 超 平 面 z, 的 距离 


在 监督 学 习 的 情况 下 ， 可 以 使 用 这 种 新 的 局 部 表示 作为 输入 。 如 果 使 用 感知 部， 
则 有 


y= = Dp Hw (12-14) 


HH ERA TR. X Rh GE HIR 8 JE Sh HK (Radial Basis Function, RBF) W] 4% 
(Broomhead 和 Lowe 1988; Moody 和 Darken 1989) 。 通 常 ， 人 们 不 使 用 多 于 一 个 高 斯 单 
元 层 的 RBF 网 络 。 互 是 复杂 度 参 数 ， 与 多 层 感知 器 的 隐藏 单元 数 一 样 。 之 前 ， 当 它 对 应 
于 非 监 督学 习 中 的 中 心 数 时 ， 我 们 用 上 表示 它 。 

这 里 ， 我 们 看 到 使 用 pi 而 不 使 用 5 的 优点 。 由 于 b% 是 0/1， 所 以 如 果 在 式 (12-14) 中 
使 用 b&b 而 不 是 p;， 则 它 将 给 出 在 单元 区 域 边界 不 连续 的 分 段 常 量 近 似 。pi 值 是 软 的 并 导 
致 光滑 的 近似 ， 从 一 个 区 域 到 男 一 个 时 取 加 权 平 均 。 我 们 可 以 容易 地 看 到 这 种 网 络 是 一 种 
普 适 近似 ， 因 为 给 定 足 够 多 的 单元 ， 它 可 以 以 期 望 的 精度 台 近 任意 号 数 。 对 于 我 们 期 望 的 
精度 ， 我 们 可 以 形成 一 个 输入 空间 中 的 网 格 ， 对 每 个 网 格 单元 定义 一 个 活跃 单元 ， 并 设置 
它 的 外 出 权重 zw 为 预期 的 输出 值 。 

这 种 结构 与 非 参 数 估 计 ( 例 如 ， 我 们 在 第 8 章 所 看 到 的 Parzen 窗口 ) 非 常 相 似 ， 并 且 
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多 的 单元 ， 可 以 更 好 地 近似 训练 数据 ， 但 是 得 到 更 复杂 的 模型 并 有 过 拟 合 的 风险 ; 单元 太 
少 可 能 从 拟 合 。 最 佳 值 仍然 用 交叉 验证 来 确定 。 

一 旦 给 定 和 固定 m, Als,» DU pi 也 是 固定 的 。 于 是 ， 可 以 容易 地 批 处 理 或 在 线 地 训练 
ws。 对 于 回归 ， 这 是 一 个 线性 回归 模型 (p; 作 为 输入 )， JP EL wi 可 以 解析 地 求解 ， 而 不 需 
要 迭代 (参见 4. 6 节 )。 对 于 分 类 ， 需 要 借助 于 一 个 迭代 过 程 。 我 们 在 第 10 章 讨 论 过 这 些 
FINE., WAAR. yj 


这 里 ， 我 们 要 做 的 是 一 个 两 阶段 过 程 : 使 用 非 C) ( 
监督 方法 确定 中 心 ， 然 后 在 其 上 构建 一 个 监督 层 。 
这 称 作 混合 学 习 (hybrid learning) 。 我 们 还 可 以 用 监 
督 方 式 学 习 所 有 的 参数 ， 包 括 mr 和 。 式 (12-13) 的 
径 向 基 消 数 是 可 微 的 ， 并 且 可 以 向 后 传播 ， 与 在 多 
层 感 知 器 中 辐 后 传播 来 更 新 第 一 层 的 权重 一 样 。 该 
结构 类 似 于 多 层 感知 器 ， 以 p; 为 隐藏 单元 ，m; 和 s, 
作为 第 一 层 的 参数 ， 高 斯 隆 数 作为 该 隐藏 层 的 激活 
PR, df] ww 作为 第 二 个 隐藏 层 的 权重 (参见 图 12-8). 

但 是 ， 在 我 们 讨论 这 些 之 前 ， 我 们 应 当 记 住 训 





练 两 层 网 络 很 慢 。 混 合 学 习 一 次 训练 一 层 ， 因 而 比 。 * x x 

较 快 。 另 一 种 技术 称 作 锚 (anchor) 方 法 ， 它 将 中 心 设 ”图 12-8 RBF 网 络 ， 其 中 ps 是 使 用 钟 

置 为 从 训练 集 随 机 选取 的 模式 ， 而 不 进一步 更 新 。 形 激活 函数 的 隐藏 单元 ，m 、 

如 果 有 许多 单元 ， 这 足以 满足 需要 。 % 是 第 一 层 的 参数 ， 而 w 是 
另 一 方面 ， 精 度 通常 没有 使 用 完全 监督 方法 的 第 二 层 的 权重 


高 。 考 虑 输入 是 均匀 分 布 的 情况 。k 均值 聚 类 均匀 地 安放 单元 。 如 果 函 数 在 一 小 部 分 空间 
稍 有 变化 ， 则 更 好 的 想法 是 将 更 多 的 中 心安 放 在 函数 变化 快 的 地 方 ， 以 便 使 误差 尽 可 能 
小 。 这 正 是 完全 监督 方法 所 要 做 的 。 

让 我 们 讨论 如 何在 完全 监督 方式 下 训练 所 有 参数 。 方 法 与 用 于 多 层 感 知 器 的 向 后 传播 
一 样 。 让 我 们 考虑 具有 多 个 输出 的 回归 。 批 处 理 的 误差 为 


ECUm, «s, wa hin |X) = >>) 24 01 — 30 (12-15) 
其 中 
H 
i= D> wa Pi 十 wi (12-16) 
使 用 梯度 下 降 ， 得 到 第 二 层 权 重 的 如 下 更 新 规则 : 
Awa = 7 >) (1 — yl) ph (12-17) 


Xi A Ale AL. Ep, PARMA. HR. WEDE, HAFRMER 
中 ， 只 有 少量 的 pu ATES, HRA ENN wi 被 更 新 。 这 就 是 为 什么 RBF 网 络 学 习 非 常 
快 ， 并且 比 使 用 分 布 表示 的 多 层 感知 器 快 的 原因 。 
类 似 地 ， 可 以 用 向 后 传播 ( 链 规则 ) 得 到 中 心 和 展 宽 的 更 新 方程 : 
Am, = 22, P? (ri — yi) Wa Jø; ME md (12-18) 


5; 
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As, 一 n>) | >) Gr — yi) Ug I if ml? (12-19) 
t i dh 


让 我 们 比较 式 (12-18) 和 式 (12-5)。 首 先 ， 这 里 我 们 使 用 bp MAE b KEREM 
最 近 的 单元 ， 而 且 所 有 的 单元 都 根据 它们 的 中 心 和 展 宽 来 更 新 。 其 次 ， 这 里 更 新 是 监督 
的 ， 并 且 包 含 向 后 传播 的 误差 项 。 更 新 不 仅 依 赖 于 输入 ， 而 且 还 依赖 于 最 终 的 误差 ( 产 一 
y). 、 单 元 对 输出 的 影响 wy, 、 单 元 的 活性 pi 和 输入 (x 一 m)。 

在 实践 中 ， 式 (12-18) 和 式 (12-19) 都 需要 一 些 附 加 的 控制 。 我 们 需要 显 式 地 检查 5; 不 
要 变 得 非常 小 或 非常 大 而 变 得 无 用 ， 我 们 还 需要 检查 mi 在 有 效 的 输入 范围 内 。 

对 于 分 类 ， 有 


exp| S Ywa pi, 十 wis | 
t h 


T 2 exp| 2 Wapi + wio | 
k h 


(12-20) 


AER FEN 
EC my «5; Wa hir |X) =— >) »rilogy| (12-21) 


使 用 梯度 下 降 ， 可 以 类 似 地 导出 更 新 规则 (习题 3) 。 

让 我 们 再 考虑 式 (12-14)。 对 于 任意 输入 ， 如 果 ph NEF, WEH h ERN w o 
它 的 贡献 是 常量 拟 合 ， 由 ww 给 定 。 通 常 ， 高 斯 函数 交合 不 多 ， 并 且 它 们 之 中 的 一 或 两 个 
具有 非 零 的 p; 值 。 在 任何 情况 下 ， 只 有 少数 单元 对 输出 有 贡献 。w。 是 常量 仿 黎 ， 加 到 活 
跃 ( 非 零 ) 单 元 的 加 权 和 上 。 我 们 还 看 到 如 果 所 有 的 pi; 均 为 0， 则 y 王 ws。 这样 ,我们 可 以 
把 zw 看 作 y 的 默认 值 : 如 果 没 有 高 斯 单元 是 活跃 的 ， 则 输出 由 该 值 给 定 。 因 此 ， 有 可 能 
使 得 该 "默认 模型 > 具有 更 强 的 能 力 。 例 如 ， 可 以 令 


H 

y = > wpi d v'x + (12-22) 
h—l Y 
SS 


规则 


例外 
在 这 种 情况 下 ， 默 认 规则 是 线性 的 : wx: 十 mw 。 当 它们 为 非 零 时 ， 高 斯 模型 好 像 是 “ 例 
外 ”并 修改 输出 ， 补 偿 预 期 输出 与 规则 输出 之 差 。 这 种 模型 可 以 以 监督 方式 训练 ， 而 规则 
与 w, 一 起 训练 (习题 4) 。 我 们 将 在 17. 11 节 讨 论 类 似 的 模型 级 联 (cascading)， 那 里 我 们 将 
看 到 两 个 学 习 器 的 组 合 ， 一 个 是 通用 规则 ， 另 一 个 由 一 组 例外 形成 。 


12.4 结合 基于 规则 的 知识 


如 果 我 们 能 够 把 先 验 知识 (prior krnowledge) 纳 入 系统 初始 化 ， 则 任何 学 习 系 统 的 训练 
都 可 以 更 简单 。 例 如 ， 先 验 知识 可 以 以 一 组 规则 的 形式 提供 ， 指 定 模型 (例如 ，RBEF 网 络 ) 
必须 学 习 的 输入 /输出 映射 。 这 种 情况 在 业界 和 医学 应 用 中 经 常 出 现 ， 那 里 规则 可 以 由 专 
家 提供 。 类 似 地 ,一旦 网 络 被 训练 ， 就 可 以 从 中 提取 规则 ， 使 问题 的 解 更 容易 理解 。 

包含 先 验 知识 还 有 其 他 优点 。 如 果 需 要 将 网 络 外 推 到 输入 空间 中 从 未 见 到 训练 数据 的 
区 域 中 ， 则 可 能 依赖 这 种 先 验 知识 。 此 外 ， 在 许多 控制 应 用 中 ， 需 要 网 络 一 开始 就 做 出 合 
理 的 预测 。 在 它 看 到 足够 多 的 训练 数据 之 前 ， 必 须 主要 依赖 这 种 先 验 知识 。 

在 许多 应 用 中 ， 通 常 我 们 被 告知 一 些 开 始 需 要 遵循 的 基本 规则 ， 而 后 通过 经 验 来 精炼 和 改 
变 它 们 。 我 们 关于 问题 的 初始 知识 越 好 ， 我 们 得 到 好 性 能 就 越 快 ， 并 且 需 要 的 训练 就 越 少 。 

使 用 RBF 网 络 ， 这 种 包含 先 验 知识 或 提取 学 习 的 知识 很 容易 做 ， 因 为 单元 是 局 部 的 。 
这 使 得 规则 提取 (rule extraction) 更 容易 (Tresp，Hollatz 和 Ahmad 1997) 。 一 个 例子 是 

IFCCr, 22 aJAND( 2, + DDDOR(Cz;, ~ c) THENy = 0.1 (12-23) 
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其 中 raa BHR “a ASF a”, Æ RBF 框架 中 ， 这 个 规则 被 两 个 高 斯 单元 编码 为 
p, = exp| e], exp| 一 (e A | Hew =0.1 





iy = exp| — a e? |， 其 中 w, = 0.1 

“ 约 等 于 ”被 一 个 高 斯 函数 建 模 ， 这 里 中 心 是 理想 值 ， 展 宽 表 示 理 想 值 周围 允许 的 差 。 
合 取 是 两 个 一 元 高 斯 函数 的 积 ， 它 是 二 元 高 斯 函数 。 于 是 ， 第 一 个 乘积 项 可 以 被 一 个 二 维 
( 即 x==[xi，zxsj) 高 斯 函数 处 理 ， 其 中 心 在 (a,，5)， 而 在 两 个 维 上 的 展 宽 分 别 由 s; 和 :给 
出 。 析 取 被 两 个 单独 的 高 斯 图 数 建 模 ， 每 个 处 理 一 个 析 取 项 。 

给 定 标记 的 训练 数据 ， 使 用 较 小 的 了 7 值 ， 这 样 构造 的 RBF 网 络 的 参数 在 初始 构造 后 
可 以 微调 。 

这 种 表示 方法 与 模糊 逻辑 方法 有 关 ， 式 (12-23) 称 作 模 糊 规 则 (fuzzy rule), 。 检 查 近 似 
相等 的 高 斯 基 困 数 对 应 于 模糊 录 属 关系 函数 (fuzzy membership function) (Berthold 1999; 
Cherkassky 和 Mulier 1998), 


12.5 规范 化 基 范 数 


在 式 (12-14) 中 ， 对 于 一 个 输入 ， 可 能 所 有 的 p; 都 为 0。 在 杀 些 应 用 中 ， pe 
望 有 一 个 规范 化 步骤 ， 确 保 局 部 单元 值 的 和 为 1， 从 而 确保 对 于 任何 输入 ， 至 少 存在 一 
非 零 单元 : 





pi _ exp[— |x — m, |? /2si] 
ye 2,expL— lx! — m, ||? 252 ] 





gh 一 (12-24) 


图 12-9 给 出 了 一 个 例子 ， JR pi palh), gi 对 应 于 x 属于 单元 h 的 后 验 概率 p(h|x)。 
这 就 像 单元 在 它们 之 间 划 分 输入 空间 。 我 们 可 以 想象 g 本身 是 分 类 右 ， 为 给 定 的 输入 选择 
啊 应 单元 。 和 就 像 在 参数 高 斯 分 拓 玉 中 那 全 (第 5 5X), 





0 05 i 1s % 25 3 35 1 45 5 

图 12-9 规范 化 前 (一 ) 和 规范 化 后 (一 一 ) 的 3 个 高 斯 分 布 ， 其 中 心 用 “ * "标记 。 注 意 一 个 单 
元 的 非 零 区 域 还 依赖 其 他 单元 的 位 置 。 如 果 展 宽 较 小 ， 则 规范 化 实现 较 硬 的 划分 
使 用 较 大 的 展 宽 ， 单 元 重奏 更 多 
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输出 是 加 权 和 
y = X wagi (12-25) 


ix HURTS ERI. AA Pet x. BDA—PAESH ga. EH g; 而 不 是 加 并 不 引入 
MMA Me. ERA IRAE. p, MMF m, A su. (AA FMI, g KR 
于 所 有 单元 的 中 心 和 展 宽 。 
对 于 回归 ， 使 用 梯度 下 降 ， 有 如 下 更 新 规则 : 
Awa =9>, (ri — ypg (12-26) 


Amy 一 9 91 Gi yD Gus — yD gh SL, (12-27) 


可 以 类 似 地 导出 5; 的 更 新 规则 和 用 于 分 类 的 规则 。 让 我 们 把 这 些 规则 与 具有 非 规范 化 
高 斯 的 RBF 的 规则 式 (12-17) 进 行 比较 。 这 里 ， 我们 使 用 g; 而 不 是 p,， 这 使 得 单元 的 更 新 
不 仅 依 赖 于 它 自 己 的 参数 ， 而 且 也 依赖 于 其 他 单元 的 中 心 和 展 宽 。 比 较 式 (12-27) 和 式 (12- 
18)， 我 们 看 到 我 们 有 (wi — yi) 而 不 是 w;; ， 这 说 明 规 范 化 在 输出 上 的 作用 。“ 负 责任 ”的 
单元 希望 降低 它 的 输出 wi 与 最 终 输 出 y; 之 间 的 差 .， 正比 于 它 的 责任 gi. 


12.6 RAH wR 


正如 我 们 迄今 为 止 所 看 到 的 ， 在 RBF 网 络 中 ， 最 终 的 输出 由 局 部 单元 贡献 的 加 权 和 
确定 。 尽 管 单元 是 局 部 的 ， 但 是 重要 的 是 最 终 的 加 权 和 ， 并 且 我 们 和 希望 使 它 与 预期 输出 尽 
可 能 接近 。 例 如 ， 对 于 回归 ， 我 们 最 小 化 式 (12-15)， 这 基于 概率 模型 

Mica 1 (ri — yi» 
pc Ix) = [T XB = | 
其 中 oy! 由 式 (12-16)( 非 规范 化 的 ) 或 式 (12-25) (规范 化 的 ) 给 出 。 在 这 两 种 情况 下 ， 我 们 都 
可 以 将 模型 看 作协 同 (cooperative) 模 型 ， 因 为 单元 协同 操作 来 产生 最 终 的 输出 yi. ME, 
我 们 讨论 使 用 竟 争 的 基 函 数 (competitive basis functions) 的 方法 ， 其 中 我 们 假定 输出 取 自 
混合 模型 








(12-28) 


H 
pG Ix = >) pth|x') p(r' |h x) (12-29) 
h=1 


BO |x IRA KB, pOr lh, 关 ) 是 产生 输出 的 混合 分 支 ， 如 果 该 分 支 被 选择 。 注 意 这 两 
项 都 依赖 于 输入 x。 


混合 比例 为 
ph|x) — EGO BUD (12-30) 
24b x ID pd) 
l 
; —_anexpl— [x —m]*/2s].- (12-31) 


X a,expL— | x' — m, ||? /2s? ] 
l 


通常 ， 我 们 假定 内 相等 并 忽略 它们 。 让 我 们 先 考虑 回归 ， 其 中 分 支 是 高 斯 的 。 在 
式 (12-28) 中 ， 噪 声 被 加 到 加 权 和 上 。 这 里 ， 一 个 分 支 被 选中 ， 并 且 噪 声 加 到 它 的 输出 y E. 
使 用 式 (12-29) 的 混合 模型 ， 对 数 似 然 是 


LU my s, wa bin |X) 一 log gi exp|—> >) (ri — XY | (12-32) 
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其 中 ya 二 wa 是 由 分 支 h 对 输出 i 做 的 常量 拟 合 。 严 格 地 说 ， 它 不 依赖 于 x。( 在 12.8.2 
六 ， 我 们 讨论 竞争 的 混合 专家 模型 ， 其 中 局 部 拟 合 是 x 的 线性 函数 。) 我 们 看 到 如 果 gi 为 
1， 则 它 对 产生 正确 的 输出 负责 ， 并 且 需 要 最 小 化 它 的 预测 误差 的 平方 和 2, (rb — va)? . 


使 用 梯度 上 升 最 大 化 该 对 数 似 然 ， 得 到 


Aw, = 2», Gi — y&2 fi (12-33) 
其 中 
on i-a] 
fi NC eS Sa |e (12-34) 
Dei — 5 2] (i — »0* | 
l i 
plh|r,x) __plhlx)plrlh,x) (12-35) 


Dp |x) pr Lx) 


gi p 1x tM AL NAT h 的 后 验 概率 ， 并 且 它 依赖 于 所 有 单元 的 中 心 和 展 宽 。 

=plh|r, x') 是 给 定 输入 和 预期 输出 的 单元 h 的 后 验 概率 ， 也 在 选择 负责 单元 时 考虑 

类 似 地 ， 我 们 可 以 推导 更 新 中 心 的 规则 : 
Am, = 12; Ga 7 4) 


f, Fe EL HS f b B] cA 的 后 验 概率 ， 而 g; 是 仅 使 用 输入 空间 信息 的 后 验 概 率 。 
它们 的 差 是 中 心 的 误差 项 。 可 以 类 似 地 导出 As; 。 在 协同 情况 下 ， 并 不 强求 单元 是 局 部 的 。 
为 了 降低 误差 ， 均 值 和 展 宽 都 可 以 取 任 意 值 ， 有 时 ， 其 至 可 以 增加 和 展 平展 宽 。 然 而 ， 在 
苑 争 情况 下 ， 为 了 提高 似 然 ， 单元 必须 是 局 部 的 ， 它 们 之 间 更 加 分 离 ， 并 具有 更 小 的 
Re ot o 

对 于 分 类 ， 每 个 分 支 本 身 是 多 项 式 。 于 是 ， 对 数 似 然 为 


(12-36) 


(xj me L 
5; 


XE m, » Si, (Ua) Te s. = Dilog 2,8 [I Cya)” (12-37) 
= Slog »Jaiexp[ >)rilogo | (12-38) 
t h i 
其 中 
( — _ exXpw, 


Yih mcO t (12-39) 
bJ CXPWy, 


可 以 使 用 梯度 上 升 导出 wa, m, 和 5; 的 更 新 规则 ， 它 包括 
giexp| 2 jrilogys | 


(eee (12-40) 
27giexp| rilogy | 
在 第 7 章 ， 我 们 讨论 了 用 混合 高 斯 模型 拟 合 数据 的 EM 算法 。 也 可 以 将 EM 推广 到 监 
督学 习 。 实 际 上 ， 计 算 fi MME. fi=prlh, x BRT pale’), 后 者 是 当 应 用 
非 监 督 的 时 我 们 在 第 7 章 的 下 步 所 使 用 的 。 对 于 回归 ， 在 M 步 我 们 用 下 式 更 新 参数 


Df ix 
» fi 


(12-41) 





WW = 
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DO Fi —m) (xt — m)" 
S, — ÉD (12-42) 
Di fir f 
dif 
我 们 看 到 zw 是 加 权 平 均 ， 其 中 给 定 输入 和 预期 的 输出 ， 权重 是 单元 的 后 验 概 率 。 对 于 
分 类 ，M 步 没 有 解析 解 并 且 需 要 借助 于 迭代 过 程 ， 例 如 梯度 上 升 (Jordan 和 Jacobs 1994) , 


12.7 学习 向 量 量化 


假设 对 每 个 类 有 互 个 单元 ， 它 们 已 经 被 这 些 类 标记 。 这 些 单元 已 经 被 它们 类 中 的 实 
例 随机 初始 化 。 在 每 次 迭代 中 ， 我 们 寻找 在 欧式 距离 中 离 输入 实例 最 近 的 单元 m;， 并 使 
用 如 下 的 更 新 规则 : 
Am, = q(x' m) 如 果 x 和 m; 具 有 相同 的 类 标号 
ja =— yx' —m) 否则 
如 果 最 近 的 中 心 具 有 正确 的 标号 ， 则 它 将 移 向 输入 以 便 更 好 地 代表 它 。 如 果 它 属于 错 
误 的 类 ， 则 它 远 离 输入 ， 期 望 如 果 它 移 得 足够 远 ， 则 在 未 来 的 迭代 中 正确 的 类 将 是 最 近 
的 。 这 称 作 学 习 向 量 量 化 (Learning Vector Quantization，LVQ) 模 型 ， 由 Kohonen(1990, 
1995) 提 出 。 
LVQ 更 新 方程 类 似 于 式 (12-36)， 其 中 中 心 移动 的 方向 依赖 于 两 个 值 的 差 : 获胜 单元 
基于 输入 距离 的 预测 和 获胜 者 基于 预期 的 输出 。 


12.8 混合 专家 模型 


在 RBF 中 ， 对 应 于 每 个 局 部 小 片 ， 我 们 给 出 一 个 常量 拟 合 。 在 对 于 任意 输入 的 情况 
下 ， 有 一 个 g; 为 1， 而 其 余 为 0， 得 到 一 个 分 段 常 量 近 似 ， 其 中 对 于 输出 i， 小 片 h 的 局 部 
拟 合 由 wa 给 出 。 从 泰勒 展开 式 我 们 知道 在 每 个 点 ， 肾 数 可 以 写成 

f(x) = fla) + GG — a)f' (a) + (12-45) 

这 样 ， 如 果 r 足够 接近 a JÉH 广 (a) 接 近 0， 即 如 果 fO E a 附近 是 平坦 的 ， 则 常量 
近似 很 好 。 如 果 不 是 这 种 情况 ， 则 需要 将 空间 划分 成 大 量 小 片 。 当 输入 维度 很 高 时 ， 由 于 
维 灾 难 ， 这 是 一 个 特别 严重 的 问题 。 

一 种 可 供 选 择 的 方法 是 考虑 泰勒 展开 式 的 下 一 项 ( 即 线性 项 ), 使 用 分 段 线性 近似 
(piecewise linear approximation)。 这 就 是 混合 专家 模型 (mixture of experts) 所 做 的 (Ja- 
cobs 等 1991)。 我 们 令 





Wr 一 


(12-43) 


(12-44) 


y = = Yu! (12-46) 
它 与 式 (12-25) 一 样 ， 但 是 这 里 小 片 对 输出 i 的 贡献 wy 而 不 是 常量 ,但 是 输入 的 线性 区 数 : 
Wi, — = gi»? (12- 47) 


v,AEAE X £X PE PRY A AS E. ELE df I. (ERI. RRN E RBF 网 络 
的 推广 。 单 元 活性 可 以 取 规 范 化 的 RBF: 
"m exp[ — | x‘ — m, l^/2si] 


(12-48) 
2 exp[— | x' — m, ||? /2s? ] 
l 
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除 第 二 层 权 重 不 是 常量 而 是 线性 模型 的 输出 外 ， 这 可 以 看 作 一 个 RBF 网 络 ( 参 见 图 12- 
10), Jacobs 等 (1991) 用 男 一 种 方式 来 看 它 : 他 们 将 w, 看 作 线 性 模型 ， 每 个 都 取 输 入 ， 并 
称 它们 为 专家 。g; 被 看 作 一 个 门 控 网 络 (gating network) 的 输出 。 门 控 网 络 就 像 其 输出 之 
和 为 1 的 分 类 器 一 样 ， 将 输入 指派 到 一 个 专家 (参见 图 2-11), 


Ji Ji 





图 12-10 混合 专家 模型 可 以 看 作 RBF Nf, H 图 12-11 混合 专家 模型 可 以 看 作 组 合 多 种 模型 


中 第 二 层 的 权重 是 线性 模型 的 输出 。 为 的 模型 。w, 是 模型 ， 而 门 控 网 络 是 另 

了 清晰 起 见 ， 只 显示 了 一 个 线性 模型 一 种 确定 每 个 模型 权重 的 模型 ， 由 g 
给 出 。 用 这 种 方式 来 看 ， 专 家 和 门 控 
网 络 都 不 局 限于 是 线性 的 


用 这 种 方式 看 待 门 控 网 络 ， 任 何 分 类 器 都 可 以 用 在 门 控 网 络 中 。 当 x 是 高 维 的 时 ， 使 

用 局 部 高 斯 单元 可 能 需要 大 量 专 家 ， 而 Jacobs 等 (1991) 提 议 取 
, — expLmix' ] 
" >) expLmix’] 


KE— TAHA. ER, mAKRE DD, Tee PM. HAMA Aa ae. TEA 
实现 了 分 类 ， 它 将 输入 区 域 线性 地 划分 成 专家 及 负责 的 区 域 和 其 他 专家 负责 的 区 域 。 正 如 
我 们 将 在 第 17 章 中 再 次 看 到 的 ， 混 合 专家 模型 是 一 种 组 合 多 个 模型 的 通用 结构 ， 专 家 和 
门 控 网 络 都 可 以 是 非 线性 的 ， 例 如 ， 包 含 多 层 感 知 器 而 不 是 线性 感知 器 (习题 6) 。 

Bottou 和 Vapnik(1992) 提 出 了 一 种 类 似 于 混合 专家 模型 并 进行 移动 线性 光滑 的 结构 。 
在 他 们 的 方法 中 ， 初 始 时 并 不 做 训练 。 当 给 定 一 个 检验 样本 时 ， 选 择 一 个 接近 检验 实例 的 
数据 子 集 ( 与 & 最 近邻 一 样 ， 但 使 用 更 大 的 有 &)， 使 用 这 些 局 部 数据 训练 一 个 简单 模型 (如 线 
性 分 类 器 ) ， 对 实例 做 出 预测 ， 然 后 丢弃 该 模型 。 对 于 下 一 个 实例 ， 创 建 一 个 新 模型 ， 以 
此 类 推 。 在 手写 数字 识别 应 用 中 ， 这 种 模型 比 多 层 感知 占 、& 最 近邻 和 Parzen 窗口 具有 更 
小 的 误差 。 缺 点 是 需要 实时 对 每 个 检验 实例 训练 一 个 新 模型 。 


(12-49) 


12.8.1 协同 专家 模型 


在 协同 情况 下 ，y 由 式 (12-46) 给 出 ， 而 我 们 希望 使 它 与 要 求 的 输出 ri 尽 可 能 接近 ，。 
对 于 回归 ， 误 差 晒 数 是 


ECm, vs, wa bia O =>) 22 601—907 (12-50) 
使 用 梯度 下 降 ， 第 二 层 (专家 ) 权 重 参数 更 新 为 
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Av, = 9», (7 — YD gix' (12-51) 
与 式 (12-26) 比 较 ， 我 们 看 到 唯一 的 区 别 是 ， 新 的 更 新 是 输入 的 函数 。 
如 果 我 们 使 用 软 最 大 门 控 (参见 式 (12-49))， 则 使 用 梯度 下 降 ， 我 们 有 超 平面 的 如 下 
更 新 规则 : 
Amy = 92, Dy (ri — y0 Cw — yi gio] (12-52) 
如 果 我 们 使 用 径 向 门 控 (参见 式 (12-48))， 则 只 有 最 后 一 项 op,/om, 不 同 。 
对 于 分 类 ， 我 们 有 


expl X wagi] 
=a (12-53) 
i X expl > wagi] 
其 中 w =vaix, FAOPAREPRAUSH E ME E. B E A C23 E. T7). 
12.8.2 竞争 专家 模型 
与 竞争 RBF 一 样 ， 我 们 有 
£Cim, 9 54 9 Wih bis Be. == Vlog D gie - 5 2 (ri -»» | (12-54) 
其 中 ya 二 wi 二 v,x*。 使 用 梯度 上 升 ， 得 到 
Av, =n Gi — yh) fix' (12-55) 
Am, =n2 Cf. — gh) X (12-56) 
假定 软 最 大 门 控 由 式 (12-49) 给 出 。 
对 于 分 类 ， 我 们 有 
LOU My 9 Si 9 Un tih |x) = 2 log > gi [T (yi, 2^ (12-57) 
= 2 log) giexp| 2;rilogya | (12-58) 
其 中 
, — —expwh_ _ expbv,x] (12-59) 


Jordan 和 Jacobs(1994) # EM 推广 到 具有 局 部 线性 模型 的 竞争 情况 Alpaydin 和 Jordan 
(1996) 比较 了 用 于 分 类 任务 的 协同 和 竞争 模型 ， 发 现 协同 模型 一 般 更 准确 ， 但 是 竞争 版 本 学 
习 更 快 。 这 是 因为 在 协同 情况 下 ， 模 型 重 倒 更 多 并 且 实 现 了 更 光滑 的 近似 ， 所 以 更 适合 回归 
问题 。 竞 争 模 型 做 更 硬 的 划分 。 通 常 ， 对 于 一 个 输入 ， 只 有 一 个 专家 是 活路 的 ， 因 此 学 习 更 快 。 


12.9 层次 混合 专家 模型 

在 图 12-11 中 ， 我们 看 到 一 组 专家 和 一 个 选择 一 个 专家 作为 输入 的 蚂 数 的 门 控 网 络 。 
在 层次 混合 专家 模型 (hierarchical mixture of expert) 中 ， 我 们 以 递归 方式 用 一 个 完整 的 混 
合 专家 系统 取代 每 个 专家 (Jordan 和 Jacobs 1994)。 一 旦 结构 选 定 ， 即 选 定 深度 、 专 家 和 
门 控 模 型 ， 整 棵 树 就 可 以 从 标记 的 样本 中 学 习 。Jordan 和 Jacobs(1994) 为 这 样 的 结构 推导 
出 了 梯度 下 降 和 EM 学 习 规 则 。 

这 种 结构 也 可 以 解释 成 一 棵 决策 树 ( 第 9 章 )， 而 它 的 门 控 网 络 是 决策 节点 。 在 我 们 前 面 
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讨论 的 决策 树 中 ， 决 策 节 点 做 硬 决策 并 取 其 中 的 一 个 分 支 ， 所 以 我 们 只 取 一 条 从 树 根 到 树叶 
的 路 径 。 这 里 ， 我 们 有 一 棵 软 决策 树 (soft decision tree) 。 因 为 门 控 模 型 返回 一 个 概率 ， 所 以 
我 们 取 所 有 的 分 支 ， 但 以 不 同 的 概率 。 于 是 ， 我 们 遍历 所 有 到 树叶 的 路 径 ， 并 取 所 有 树叶 值 的 
加 权 和 ， 其 中 权重 等 于 到 树叶 路 径 上 的 门 控 值 的 乘积 。 这 种 平均 的 优点 是 ， 树 叶 区 域 之 间 的 边 
界 不 骨 是 人 硬 的 ， 而 是 之 间 有 一 个 过 渡 ， 这 平滑 了 啊 应 (Irsoy，Yildiz 和 AlpaydiN 2012), 


12.10 注释 


RBF 网 络 可 以 看 作 神 经 网 络 ， 由 简单 处 理 单元 的 网 络 实现 。 它 不 同 于 多 层 感 知 器 ， 因 
为 第 一 层 和 第 二 层 实 现 了 不 同 的 函数 。Omohundro(1987) 讨 论 了 如 何 用 神经 网 络 实现 局 部 
模型 ， 并 且 还 提出 了 相关 局 部 单元 快速 局 部 化 的 层次 数据 结构 。Specht(1991) 表 明 Parzen 
窗口 可 以 作为 神经 网 络 实现 。 

Platt(1991) 提 出 了 RBF 的 增 量 版 本 ， 新 单元 可 以 在 必要 时 添加 。 类 似 地 ，Fritzke 
(1995) 提 出 了 SOM 的 增长 版 本 。 

Lee(1991) 在 手写 数字 识别 应 用 上 比较 了 最 近邻 、 多 层 感 知 器 和 有 BF 网 络 ， 结 论 是 
三 种 方法 都 具有 小 的 误差 率 。RBF 网 络 学 习 比 多 层 感知 器 上 的 向 后 传播 快 ， 但 是 使 用 更 多 
参数 。 就 分 类 速度 和 存储 需求 而 言 ， 这 两 种 方法 都 优 于 ANN。 在 实际 应 用 中 ， 像 时 间 、 
存储 器 和 计算 复杂 度 等 实际 限制 可 能 比 误差 率 的 些许 差别 更 重要 。 

Kohonen 的 SOM(1990，1995) 是 最 流行 的 神经 网 络 方法 之 一 ,已 经 用 于 各 种 应 用 中 ， 
包括 探测 式 数 据 分 析 和 作为 监督 学 习 之 前 的 预 处 理 步 骤 。 一 个 有 趣 的 和 成 功 的 应 用 是 旅行 
商 问 题 (Angeniol，Vaubois 和 Le Texier 1988), IEMA 均值 聚 类 与 高 斯 混合 上 的 EM( 第 7 
章 ) 之 间 的 区 别 一 样 ， 生 成 地 形 图 映射 (Generative Topographic Mapping, GTM) (Boshop， 
Svebsén 和 Williams 1998) 是 SOM 的 概率 版 本 ， 它 使 用 其 均值 落 在 二 维 流 形 上 的 (关于 低 维 上 
的 拓扑 序 ) 混 合 高 斯 优化 数据 的 对 数 似 然 。 

在 RBF 网 络 中 ， 一旦 中 心 和 展 宽 固定 (例如 ， 与 销 方法 一 样 ， 通 过 随机 选择 训练 实例 
中 的 一 个 子 集 作 为 中 心 )， 训 练 第 二 层 是 一 个 线性 模型 。 这 个 模型 等 价 于 取 高 斯 核 的 支持 
回 量 机 。 该 方法 ， 在 学 习 期 间 ， 选 择 称 作 支持 加 量 的 最 佳 实 例子 集 。 我 们 将 在 第 13 章 讨 
论 。 高 斯 过 程 ( 第 14 章 ) 也 类 似 ， 由 存放 的 实例 插值 。 


12.11 习题 
1. 给 出 一 个 实现 XOR 的 RBF 网 络 。 
ft: 有 两 种 可 能 性 (参见 图 12-12): a) 我 们 可 以 有 两 个 以 两 个 正 实例 为 中 心 的 圆 形 
高 斯 ， 并 且 第 二 层 OR 它们 ; b) 我 们 可 以 有 一 个 以 (0.5，0. 5) 为 中 心 、 具 有 负 相 关 的 
椭圆 高 斯 ， 覆 盖 两 个 正 实例 。 


Pd 
% uf 
9 ` h 
; 1 b 3 
" 1 * 
: 
: 





CONES. 
~ 


a) b) 


Ye 


图 12-12 用 RBF 实现 XOR 的 两 种 方法 
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2. 写 下 RBF 网 络 ， 它 使 用 椭圆 单 元 ， 而 不 是 像 式 (12-13) 中 那样 的 径 向 单元 。 
解 : 


ph = exp| — zo —m,) S, (x -m)| 


其 中 是 局 部 协 方 差 矩 阵 。 
3. 为 分 类 的 RBF 网 络 推导 更 新 方程 ( 式 (12-20) 和 式 (12-21) )。 
4. 说 明 如 何 训练 式 (12-22) 给 定 的 系统 。 
5. 比较 混合 专家 结构 和 RBF 网 络 的 参数 个 数 。 
解 : 具有 & 个 输入 、 天 个 类 和 互 个 高 斯 的 RBF 网 络 需要 H * d 个 参数 为 中 心 ， 
H 个 参数 为 展 宽 ，( 互 十 1) 开 个 参数 为 第 二 层 的 权重 。 关 于 MoE， 对 于 第 二 层 的 每 个 
权重 ， 我 们 需要 线性 模型 的 一 个 d 十 1 维 的 向 量 , 但 没有 偏 位 。 因 此 我 们 有 五 K(Cd 十 
1) 个 参数 。 注 意 ， 第 一 层 参数 的 数量 与 RBF 相同 ， 无 论 是 高 斯 门 控 还 是 软 最 大 门 控 。 
对 于 每 个 隐藏 单元 ， 在 高 斯 门 控 的 情况 下 ， 需 要 d 个 参数 为 中 心 ，1 个 参数 为 展 宽 ; 
在 软 最 大 门 控 的 情况 下 ， 线 性 模型 有 d+1 个 参数 (Cd& 个 输入 和 一 个 偏 傈 ) 。 
6. 给 出 混合 专家 结构 的 严格 描述 ， 其 中 专家 和 门 控 网 络 都 是 多 层 感知 器 。 为 回归 和 分 类 
推导 更 新 方程 。 
7. 为 分 类 推导 协同 混合 专家 模型 的 更 新 方程 。 
8. 为 分 类 推导 竞争 混合 专家 模型 的 更 新 方程 。 
9. 给 出 具有 两 层 的 层次 混合 专家 结构 的 严格 描述 。 使 用 梯度 下 降 ， 为 回归 和 分 类 推导 更 
新 方程 。 
解 : 以 下 取 自 Jordan fill Jacobs 1994， 符 号 稍微 改变 ， 以 便 与 本 书 的 符号 一 致 。 让 
我 们 考察 具有 单个 输出 的 回归 : y 是 整体 输出 ，y; 是 第 一 层 的 输出 ， 而 yj; 是 第 二 层 的 输 |， 
出 ， 它 们 在 两 层 模 型 的 叶子 上 。 类 似 地 ，g; 是 第 一 层 的 门 控 输 出 ， 而 g; ;是 第 二 层 上 的 ”B345 
输出 ， 即 给 定 我 们 在 第 一 层 已 经 选择 了 分 支 ;， 第 二 层 上 专家 j 的 门 控 值 : 


dem MEO 
expm,x 
M » guys a p= WX 
J > expmix 
k 
expm;x 
Jg ex 8 Kir = — a 
X expmix 
l 


在 回归 中 ， 需 要 最 小 化 的 误差 是 (注意 这 里 我 们 使 用 竞争 版 本 ): 
E = log Das D giex- 5 C -» | 
使 用 梯度 下 降 ， 我 们 得 到 如 下 更 新 方程 : 
^v, —2»1fifli( — y)» 
Am; = >) (fi — gi) x’ 
Am; =>) fi fii — gx 
其 中 ， 使 用 了 如 下 性 质 : 


198 $12* 


gi » giuexp[— (1/2) (7 — y$)*] 
^ gi »,giuexpL— (1/2) (7 — yi)? J 
k j 


—_ gij,explL— (1/2) G^ — yi, )? ] 

<2 EC 37 ECL WE 
2 alyexpl — TA — 3445*] 
l 


fi 


ij » ai » giuexpL— (1/2) G* — y&2" ] 
注意 我 们 如 何 将 从 根 到 树叶 专家 的 路 径 上 的 门 控 值 相 乘 。 


对 于 K>2 类 分 类 ， 一 种 可 能 是 像 上 面 一 样 ( 有 单个 输出 专家 )， 有 天 个 单独 的 
HME， 我 们 软 最 大 化 它们 的 输出 ， 以 便 最 大 化 对 数 似 然 : 


[= Dy log ? jg: 2 jgsuexp[ 2 jrilogp: | 
exp: 
> expyt 
ER, HA y 代表 一 个 单 输出 的 HME 的 输出 。 单 个 多 类 HME 的 更 有 趣 的 情况 在 
Waterhouse 和 Robinson 1994 中 讨论 ， 那 里 专家 有 K 个 软 最 大 输出 。 


10. 在 混合 专家 模型 中 ， 由 于 不 同 的 专家 专攻 输入 空间 的 不 同 部 分 ， 所 以 他 们 需要 关注 不 
同 的 输入 。 讨 论 如 何在 专家 模型 中 局 部 地 进行 维度 归 约 。 
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啊 用 面向 应 用 的 相似 性 核 给 出 。 我 们 讨论 “ 核 化 的 ”分 类 、 回 归 、 排 名 、 离 群 点 检测 和 维度 
归 约 ， 以 及 如 何 选择 和 使 用 核 。 


13.1 引言 


现在 ， 我 们 讨论 一 种 不 同 的 线性 分 类 和 回归 方法 。 不 必 惊 奇 ， 即 使 对 于 线性 模型 这 种 
简单 情况 ， 也 存在 很 多 不 同 的 方法 。 每 种 学 习 算法 都 具有 不 同 的 归纳 偏 位 ， 做 不 同 的 假 
设 ， 定 义 不 同 的 目标 函数 ， 因 此 可 能 找到 不 同 的 模型 。 

本 章 ， 我 们 将 讨论 的 模型 称 作 支持 向 量 机 (Support Vector Machine, SVM), ， 稍 后 推 
广 到 核 机 器 (kernel machine) 。 近 年 来 它 非常 流行 ， 原 因 如 下 : 

D 它 是 基于 判别 式 的 方法 ， 并 使 用 Vapnik 原则 : 不 要 在 解决 实际 问题 之 前 把 解决 一 
个 更 复杂 的 问题 作为 第 一 步 (Vapnik 1995)。 例 如 ， 对 于 分 类 ， 当 任务 是 学 习 一 个 判别 式 
时 ,不必 估计 类 密度 p(x1C;) 或 准确 的 后 验 概率 值 PCC |x); 只 需要 估计 类 边界 在 哪里 ， 
即 哪里 的 x 有 PC(C;|x) 二 PC(C;|x)。 类 似 地 ， 对 于 离 群 点 检测 ， 不 需要 估计 全 密度 p(x); 
只 需要 找 出 把 具有 较 低 P GO TRLR x FAA. BIE IR 0€ (0，1)， 找 出 把 满足 
p(x) 二 9 的 x 分 开 的 边界 。 

2) 训练 后 ， 线 性 模型 的 参数 (权重 向 量 ) 可 以 用 训练 集 的 一 个 子 集 表 示 ， 这 个 子 集 称 
作 支 持 向 量 (support vector) 。 对 于 分 类 ， 这 些 是 靠近 边界 的 实例 ， 因 此 知道 它们 可 以 提取 
知识 : 这 些 是 在 两 个 类 之 间 的 边界 附近 、 不 确定 或 有 错误 的 实例 。 它 们 的 个 数 给 我 们 提供 
了 泛 化 误差 的 一 个 估计 ， 并 且 正 如 我 们 将 在 下 面 看 到 的 ， 能 够 用 实例 集 表 示 模 型 参数 可 以 
进行 核 化 (kernelization ) 。 

3) 正如 我 们 稍 后 将 看 到 的 ， 输 出 用 支持 向 量 的 影响 之 和 表示 ， 并 且 这 些 用 核 函 数 
(kernel function) 给 出 。 核 浮 数 是 数据 实例 之 间 相 似 性 的 面 回 应 用 的 度量 。 前 面 ， 我 们 谈 
到 非 线 性 基 哺 数 使 我 们 能 够 把 输入 映射 到 男 一 个 空间 ， 那 里 可 以 找到 线性 (光滑 的 ) 解 。 核 
盟 数 使 用 相同 的 思想 。 

4) 通常 ， 在 大 部 分 学 习 算法 中 ， 数 据点 用 向 量 表示 ， 并 且 或 者 使 用 点 积 ( 如 在 多 层 感 
知 器 中 )， 或 者 使 用 欧 氏 距离 (如 在 径 向 基 消 数 网 络 中 )。 核 函数 使 我 们 走 得 更 远 。 例 如 ， 
Gl 和 Gs 可 以 是 两 个 图 ， 而 K(G!，Gs) 可 以 对 应 于 共享 路 径 数 ， 我 们 可 以 计算 它 ， 而 不 必 
显 式 地 用 向 量 表 示 G Gz. 

5) 基于 核 的 算法 可 以 形式 化 地 表示 成 凸 优化 问题 ， 并 且 存 在 可 以 解析 地 求解 的 单个 
最 优 解 。 因 此 ， 我 们 不 再 受 启 发 式 方法 的 学 习 率 、 初 始 化 、 检 查收 敛 性 等 的 困扰 。 当 然 ， 
这 并 不 意味 我 们 没有 用 于 模型 选择 的 超 参 数 。 我 们 有 超 参 数 ， 任 何方 法 都 需要 它们 ， 它 们 
使 算法 与 当前 数据 相 匹 配 。 

我 们 首先 讨论 分 类 ， 然 后 推广 到 回归 、 排 名 、 离 群 点 (新 活性 ) 检 测 ， 然 后 是 维度 归 
约 。 我 们 看 到 ， 在 所 有 情况 下 ， 我 们 基本 上 都 有 类 似 的 二 次 规划 模板 ， 在 解 的 光滑 性 约 
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束 下 ， 最 大 化 实例 的 分 离 性 或 边缘 (margin) 。 通 过 对 它 求 解 得 到 支持 向 量 。 核 函数 根据 
其 相似 性 概念 定义 空间 ， 并 且 一 个 核 函 数 如 果 在 其 对 应 空间 中 有 更 好 的 分 离 性 ， 则 它 是 
好 的 。 


13.2 最 佳 分 离 超 平面 


让 我 们 还 是 从 两 类 开始 ， 并 使 用 一 1 和 十 1 标记 这 两 个 类 。 样 本 为 X= 二 {x*，r}， 其 中 
Ax EC 则 二 十 1， 如 果 x'EC: 则 二 一 1。 我 们 希望 找到 w Aw, E44 
对 于 rr 二 十 ]， wx +w 人 十 1 
eer =—1, w!x' d4w,zx-—1 
它们 可 以 改写 为 
r Cw x Fw) >t+1 (13-1) 
注意 ， 我 们 并 不 是 简单 地 要 求 
r'(w'x'+w) >0 
为 了 更 好 地 泛 化 ,我们 不 仅 硕 望 实例 在 超 平面 的 正确 一 侧 ， 而 且 还 硕 望 它们 离 超 平面 
有 一 定 距 离 。 超 平面 到 它 两 侧 最 近 实 例 的 距离 称 作 边缘 (margin)。 为 了 更 好 地 泛 化 ， 我 们 
布 望 最 大 化 边缘 。 
在 2. 1 节 中 ， 在 讨论 拟 合 一 个 矩形 时 谈 到 过 边缘 的 概念 ， 并 且 我 们 指出 最 好 把 矩形 放 
在 S 和 G 的 中 间 ， 留 有 余地 。 这 样 做 是 为 了 在 噪声 少许 移动 检验 实例 时 ， 它 仍然 在 边界 的 
正确 一 侧 。 
类 似 地 ， 既 然 我 们 使 用 直线 的 假设 类 ， 和 那么 最 佳 分 离 超 平面 (optimal separating hy- 
perplane) 是 最 大 化 边缘 的 超 平面 。 
回忆 10.3 节 ，x' 到 判别 式 的 距离 为 
| wx 十 Wy | 
w 
X re{—1l, +1}, EAT USE 
r' Cw! x! +w) 
| w 
并 且 我 们 希望 至 少 对 于 某 个 p 值 ， 
r'(w'x' + wy) 
wl -€ 
我 们 希望 最 大 化 o， 但 是 通过 缩放 w 可 以 得 到 的 解 有 无 限 多 个 。 为 了 得 到 唯一 解 ， 我 
们 固定 pl w==1。 这 样 ， 为 最 大 化 边缘 ,我 们 最 小 化 上 w 上 。 这 个 任务 可 以 定义 为 ( 见 Cor- 
tes 和 Vapnik 1995; Vapnik 1995); 


Zp Nt (13-2) 


min =| w|*, RF (wx! +w) 2-- 1, Vt (13-3) 


这 是 一 个 标准 的 二 次 优化 问题 ， 其 复杂 度 依赖 于 4， 并 且 可 以 直接 求解 来 找到 w 和 
wo。 于 是 ， 在 超 平面 的 两 侧 ， 实 例 距离 超 平面 至 少 为 1/ 上 w| ， 而 整个 边缘 为 2/| iw]. 

在 10. 2 节 中 我 们 看 到 ， 如 果 问 题 不 是 线性 可 分 的 ， 则 我 们 不 拟 合 非 线 性 函数 ， 而 是 
使 用 非 线 性 基 函 数 将 问题 映射 到 新 的 空间 。 通 常 ， 新 空间 的 维度 比 原 始 空间 的 高 ， 并 且 在 
这 种 情况 下 ， 我 们 对 复杂 度 不 依赖 输入 维度 的 方法 感 兴趣 。 

在 寻找 最 佳 分 离 超 平面 时 ， 我 们 可 以 把 该 优化 问题 转换 成 复杂 度 依赖 于 训练 实例 数 N 
而 不 依赖 于 d 的 形式 。 正 如 我 们 将 在 13. 5 节 所 看 到 的 ， 这 种 新 表示 方法 的 另 一 个 优点 是 ， 
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第 13 章 


为 了 得 到 新 的 公式 ， 我 们 先 使 用 拉 格 朗 日 乘 子 a ， 将 式 (13-3) 改 写成 非 约束 问题 : 


N 
L, ^w! — 2er Gu? + wy) —1] 
=] 


1 » 
=H wl Dari 


wx' i Wy ) 十 Sa! 


(13-4) 


这 应 当 是 关于 Ws 最 小 化 Wo s KF a =0, 最 大 化 Wo o 鞍点 给 出 解 。 
这 是 一 个 凸 二 次 优化 问题 ， 因 为 主要 项 是 凸 的 且 线 性 约束 也 是 凸 的 。 这 样 ， 我 们 可 以 
使 用 Karush-Kuhn-Tucker 条 件 ， 解 其 对 偶 问 题 。 对 偶 问题 是 关于 a 最 大 化 L,， 受 限于 约 


p: L, 关 于 w 和 wo 的 梯度 为 0, JE A a! =0; 





= —0 > w= 2 a'r'a' (13-5) 
OL, =: a au = 
pred > a'r 0 (13-6) 
将 它们 代入 式 (13-4) ， 我 们 得 到 对 偶 问 题 
La = (ww) Eos wl 2 a'r'x' — Wo Dyer 十 » 
—— > (ww) + Sa’ 
=— 1X Dea (x)'s- Dye" (13-7) 


我 们 只 需要 关于 % 对 它 最 大 化 ， 受 限于 约束 


>ar — 0, 并 且 对 于 任意 tyra’ = 0 


这 可 以 使 用 二 次 优化 方法 来 求解 。 对 偶 问 题 的 规模 依赖 于 样本 的 大 小 N， 而 不 依赖 于 
输入 的 维度 g&。 时 间 复 杂 度 的 上 界 为 O(N )， 而 空间 复杂 度 的 上 界 为 OCN ) 。 

一 日 我 们 解 出 a ， 我 们 看 到 尽管 它们 有 NN 个 ， 但 是 多 半 以 w=0 消失 ， 而 只 有 少量 满 
IÉ 2790, o0 I] MHA SHH € (support vector)， 并 且 正 如 我 们 在 式 (13-5) 中 所 看 


到 的 ，w 可 以 写成 那些 选 作 支持 向 量 的 训练 实 
例 的 加 权 和 。 这 些 x' 满 足 
Cw x Fw) = 1 
并 且 落 在 边缘 上 。 我 们 使 用 这 一 事实 ， 由 任意 
支持 回 量 来 计算 w: 
w =r —w'x' (13-8) 

从 数值 稳定 性 来 讲 ， 建 议 对 所 有 支持 向 量 
计算 上 式 ， 并 取 平 均值 。 这 样 找 出 的 判别 式 称 
作 支 持 向 量 机 (Support Vector Machine, 
SVM) (参见 图 13-1). 

a 的 大 部 分 为 0， 对 于 它们 , x (w x 十 
ty > 1 AE x' 落 在 远离 判别 式 的 地 方 ， 并且 
对 超 平面 没有 影响 。 非 支持 向 量 的 实例 不 携 融 
信息 ， 即 便 删 除 它们 的 任意 子 集 ， 仍 然 得 到 相 





0 0.5 ] 1.5 2 


图 13-1 一 个 两 类 问题 ， 其 中 类 实例 用 加 号 和 
圆 点 表示 ， 粗 线 是 边界 ， 两 侧 的 虚线 
定义 边缘 。 轿 住 的 实例 是 支持 癌 量 
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同 的 解 。 从 这 个 角度 讲 ，SVM 算法 与 精简 的 最 近邻 算法 (8. 5 节 ) 类 似 ， 它 只 保存 邻近 ( 因 
而 约束 ) 类 判别 式 的 实例 。 
作为 基于 判别 式 的 算法 ，SVM 只 关注 那些 徘 近 边界 的 实例 ,丢弃 那些 落 在 内 部 的 实 
例 。 使 用 这 种 思想 ， 可 以 在 求 SVM 之 前 先 使 用 一 种 较 简单 的 分 类 器 过 滤 掉 这 种 实例 的 大 
部 分 ， 从 而 降低 SVM 优化 阶段 的 复杂 度 ( 习 题 1) 。 
在 检验 阶段 ， 我 们 不 强调 边缘 。 计 算 ga) =w rtu, HRE g(x) 的 符号 选择 : 
wR g(x) 之 0 则 选择 C1, 否则 选择 C, 


13.3 不 可 分 情况 : 软 边缘 超 平面 


如 果 数 据 不 是 线性 可 分 的 ， 则 我 们 前 面 讨论 的 算法 就 不 能 解决 问题 。 在 这 种 情况 下 ， 

如 果 两 个 类 不 是 线性 可 分 的 ， 使 得 不 存在 将 它们 分 开 的 超 平面 ， 则 我 们 寻找 出 错 最 少 的 超 

平面 。 我 们 定义 松弛 变量 (slack variable)& 之 0， 存 放 到 边缘 的 离 差 。 有 两 种 类 型 的 离 差 : 

一 个 实例 可 能 位 于 超 平 面 的 错误 一 侧 ， 并 被 错误 地 分 类 ; 或 者 实例 可 能 在 正确 的 一 侧 但 可 
能 落 在 边缘 中 ， 即 离 超 平面 不 够 远 。 放 宽 式 (13-1)， 我 们 要 求 

r'Cw! x 二 wo) 宇 1 一 2 (13-9) 

WR E=0, M x' 没 有 问题 。 如 果 0 二 二 1， 则 x 被 正确 分 类 , 但 是 它 在 边缘 中 。 如 

R 三 1， 则 x' 被 错误 地 分 类 (参见 图 13-2)。 错 误 分 类 数 为 # (621). JE HA TAE BS UC 


”为 # {之 0}。 我 们 定义 软 误差 (soft error) 为 Se ,并 将 加 上 它 作 为 罚 项 : 


L, = zlo. cce (13-10) 


受 限 于 式 (13-9) 的 约束 。C 是 罚 因 子 ， 与 任意 正则 化 模式 一 样 ， 在 复杂 度 和 数据 误 拟 合 之 
间 权 衡 ， 其 中 复杂 度 用 权重 向 量 的 工 : 范 数 度量 (类 似 于 多 层 感 知 锅 中 的 权 衰减 ， 参 见 11. 9 
和 11. 10 节 )， 而 数据 误 拟 合用 未 分 开 的 点 数 度量 。 注 意 ， 为 了 更 好 地 泛 化 ， 我 们 不 仅 息 
罚 误 分 类 的 点 ， 也 惩罚 边缘 中 的 点 ， 尽 管 后 者 在 检验 时 将 正确 地 分 类 。 

加 上 这 些 约束 ， 式 (13-4) 的 拉 格 朗 日 方程 变 成 


i, = 7l» tc = Dye‘ Lr Co y en oy sb B^] n Dee (13-11) 


其 中 jy 是 新 的 拉 格 朗 日 参数 ， 确保 g 为 正 。 当 我 们 对 上 式 关 于 参数 求 导 并 令 它 们 为 0 时 ， 
我 们 得 到 


oe 一 2.a'r'x! = 一 0>w = Dya'r'x ty! (13-12) 
ny — ti! -一 一 = 
m die T (18-13) 
aL, 

COT a DA (13-14) 
T Ep 


由 于 y' 宇 090， 所 以 式 (13-14) 意 味 0 二 a 二 C。 把 这 些 代 入 式 (13-11)， 得 到 关于 a' 最 大 化 
的 对 偶 问 题 
La = Die — 12 2 ja'a'r'r (x )'r (13-15) 
受 限 于 
Dar 20,3 EET ££ 650a! «C 
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解 这 个 对 偶 问 题 ， 我 们 看 到 与 可 分 情况 一 样 ， 落 在 边界 正确 一 侧 并 距 边 界 足 够 远 的 实 


fil bi a'—0 消失 (参见 图 13-2) 。 支 持 向 量 
的 wx 之 0， 并 且 如 式 (13-12)7 所 示 ， 它 们 定 
X w, GR, ABER a <C 的 实例 在 边缘 
上 ， 并 且 我 们 使 用 它们 计算 w., ENA 
£—0, # AWE r(w's’'+w) =1. [n 
样 ， 最 好 在 这 些 w 的 估计 上 取 平 均值 。 
在 边缘 中 或 误 分 类 的 那些 实例 的 a’ — C. 

作为 支持 向 量 存放 的 那些 不 可 分 的 实 
例 是 这 种 实例 ， 如 果 它 们 不 在 训练 集中 ， 
则 就 会 有 麻烦 ， 不 能 正确 地 对 它们 分 类 ，。 
它们 要 么 被 错误 分 类 ， 要 么 被 正确 分 类 但 
没有 足够 的 置信 和 度 。 我 们 可 以 说 ， 支 持 向 
量 的 个 数 是 期 望 错 误 估 计 的 一 个 上 界 。 并 
A. Sb, Vapnik (1995) 已 经 证 明 期 
望 检验 错误 率 是 


Ey PCerror) | < Bl EF 


其 中 Eyl + 表示 在 大 小 为 N 的 训练 集 上 
的 期 望 。 这 意味 着 错误 率 依赖 于 支持 向 量 
的 个 数 ， 而 不 依赖 于 输入 的 维度 。 





图 13-2 ”在 对 实例 进行 分 类 时 ， 有 4 种 可 能 的 情况 。 
a) 实例 在 正确 一 侧 且 远离 边缘 ，”g(z) 二 1， 
& 一 0。b) & = 二 0, 它 在 正确 一 侧 且 在 边缘 上 。 
c) f€=1—g(x), 0<F<1, m TEIE B8 M, 
但 在 边缘 中 ， 离 超 平面 不 够 远 。d) & = 二 1 十 g 
Go) 盖 1， 点 在 错误 一 侧 一 一 这 是 误 分 类 。 除 
了 a) 之 外 ， 所 有 实例 都 是 支持 向 量 。 用 对 偶 
变量 来 说 , TE a PA a =0. PED PA d< 
C. EDOM dF d =C 


式 (13-9) 说 明 ， 如 果实 例 在 错误 一 侧 或 者 离 边 界 的 距离 小 于 1， 则 定义 它 为 错误 。 这 
称 作 转折 点 损失 (hinge loss), WR y= wx tw Eih, r ERER, MEET Et 


IK XE XN 
Loses VY (z^ ) — 


在 图 13-3 中 ， 我 们 把 转折 点 损失 与 
0/1158. 3EJr e 25 RE H A ETT HERES 3X 
Nae, 5 0/1 损失 不 同 ， 转 折 点 损失 
还 惩罚 在 边缘 内 的 实例 ， 尽 管 它们 可 能 
在 正确 一 侧 ， 并 且 损 失 随 着 实例 远离 错 
误 一 侧 而 线性 增加 。 这 也 不 同 于 平方 损 
失 ， 因 而 平方 损失 不 如 转折 点 损失 和 鲁 棒 。 
我 们 看 到 互 炉 最 小 化 逻辑 斯 谤 判别 式 
(10.7 节 ), 或 利用 线性 感知 器 (11.3 


节 )， 是 对 转折 点 损失 的 一 个 好 的 连续 ， 


近似 。 

式 (13-10) 的 C 是 用 交叉 验证 微调 的 
正则 化 参数 。 它 准确 地 解释 边缘 最 大 化 
与 误差 最 小 化 之 间 的 权衡 : 如 果 它 太 大 ， 
则 对 未 分 开 的 点 有 高 的 惩罚 ， 并 且 可 能 


u t 61 
p y (13-16) 
l—yr' 否则 
9f 
8F^ 
; 
6 
{K 
eS 
€ 4 
m 
"1 
3t 
1 
oz 





图 13-3 比较 x 三 1 的 不 同 损失 函数 。 如 果 y —1 则 
0/1 损失 为 0， 否则 为 1。 如 果 yY 二 1 则 转折 
点 损失 为 0， 否则 为 1 一 y。 平 方 误 差 是 (1 
—y)', HAE log(1/(1+exp(— y ))) 


术 机 5m 205 


存放 许多 支持 向 量 且 过 拟 合 ; 如 果 它 太 小 ， 则 可 能 找到 过 于 简单 的 解 且 欠 拟 合 。 通 常 ， 通 
过 考察 验证 集 上 的 准确 率 ， 在 对 数 尺度 [10“，10 7, e, 107^, 10 REA. 


13.4 v-SVM 


另 一 种 等 价 的 软 边 缘 超 平面 表示 使 用 参数 v€10，1 ]， 而 不 是 CCScholkopf 等 2000), 
目标 函数 是 


min Iw? -p+ 27€ (13-17) 
受 限 于 
r' Cw! x' + w) zpi E'x0,; pz (13-18) 
6 是 一 个 新 参数 ， 它 是 优化 问题 的 变量 并 缩放 边缘 : 现在 边缘 是 2o/ 上 w| 上 。wv 已 经 被 证 
明 是 支持 向 量 所 占 比 例 的 一 个 下 界 和 具有 边缘 误差 ( o # {& 盖 0)) 的 实例 所 占 比 例 的 一 个 
上 界 。 对 偶 问 题 是 
aan Dja'a'r'r’ Ce) * x (13-19) 
受 限于 
| Ju > t l t 
dyer =0, Ka SR’ 2 ja zv 
当 我 们 将 式 (13-19) 55 3 (13-150 RE, FNAB Slo’ 不 再 出 现在 目标 函数 中 ， 


而 是 一 个 常数 。 通 过 操控 w， 我 们 可 以 控制 支持 向 量 所 占 的 比例 ， 并 且 这 被 认为 比 操控 C 
更 直观 。 


13.5 AR 


10.2 Ri, WREE IRER, UU AN UI RAE Ze ME Be AY. m E E H YE BC 
通过 非 线性 变换 将 问题 映射 到 新 空间 ， 然 后 在 新 空间 使 用 线性 模型 。 新 空间 中 的 线性 模型 
对 应 于 原始 空间 中 的 非 线 性 模型 。 这 种 方法 可 以 用 于 分 类 和 回归 问题 ， 并 且 对 于 分 类 这 种 
特殊 情况 ， 它 可 以 与 任意 模式 一 起 使 用 。 在 支持 向 量 机 这 种 特定 情况 下 ， 这 将 导致 下 面 要 
讨论 的 某 种 简化 。 

WAM EE PR BL 

z = $lx), AP z = (x) 57 = l5 
TT AY TE. ORF d AE x a AEk E, ARA 
g(x)-—w'z 
g(x) —w!$(x) 


k 
= > wj$; (x) (13-20) 
y=] 


这 里 ， 我 们 并 不 使 用 单独 的 wo. RIBE zı =$ 600-1. HA, kK Td. ka BE X 
于 N， 并 且 这 也 是 使 用 对 偶 形 式 的 优点 。 对 偶 问 题 的 复杂 度 依 赖 于 N， 如 果 我 们 使 用 原 问 
题 ， 则 将 依赖 于 &。 这 里 ， 我 们 也 使 用 软 边缘 超 平 面 的 更 一 般 情 况 ， 因 为 我 们 不 能 保证 问 
题 在 新 空间 是 线性 可 分 的 。 

问题 是 一 样 的 
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l i 
L, = z lwl’ * C5 (13-21) 
不 同 之 处 是 ， 现 在 约束 定义 在 新 空间 
w(x’) > 1—€' (13-22) 
拉 格 朗 日 方程 是 
L, = E | wl? +O Se — Ma'Drw'détx) —1+ 8] — Put (13-23) 
当 关 于 参数 求 导 并 令 它 们 等 于 0 时 ， 得 到 
es = £z 2 ja'r'$Gn) (13-24) 
oL t t 
rr = = = 0 (13-25) 
现在 ， 对 偶 问 题 是 
fae = i2 Year Gn $9) (13-26) 


受 限 于 
a'r =~OFBMNFERt0<a' « C 


核 机 器 (kernel machine) 的 基本 思想 是 用 原始 输入 空间 中 的 实例 之 间 的 核 函数 (kernel 
function) K(x’, x' BRHE pa PR (x0! 9 )。 这 样 ， 取 代 把 两 个 实例 六 和 关上 映射 到 
z 空间 并 在 那里 做 点 积 ， 我 们 直接 使 用 原始 空间 中 的 核 图 数 。 


by = Dia 一 i2 2 ja'a'r'rK Gc x) (13-27) 
Tx p RE rb LEA Sal X FP 
g(x) —w'é() = »ja'r'bO x TAa) 


= V'a'r'K (x! ,x) (13-28) 


HERE, MRARKAM. WESABE ERAS Ss ll. Kk, ME A Re 
KPA, WASE FETE RT ILES BRT PR, (AEE KO. x) iT (XO Al $GO BESK GUB i 
单 得 多 。 正 如 我 们 在 下 一 节 将 看 到 的 ， 许 多 算法 都 被 核 化 (kernelized)， 而 这 正 是 我 们 称 
之 为 “ 核 机 器 ”的 原因 。 

核 值 的 矩阵 KCH” OK, = 二 K(x:，x’)) 称 作 Gram 矩阵 (Gram matrix)， 它 应 该 是 对 称 
的 、 半 正定 的 。 近 来 ， 在 共享 数据 集中 ， 仅 有 K 矩阵 而 不 提供 x' 或 $9(x') 已 经 成 为 标准 做 
法 。 尤 其 是 在 生物 信息 学 和 自然 语言 处 理 的 应 用 中 ，x( 或 $9(x)) 有 数 百 维 或 数 干 维 ， 存 
放 / 下 载 这 个 NXN 和 矩阵 开销 小 得 多 (Vert，Tsuda 和 Schélkopf 2004)。 然 而 ， 这 意味 着 
我 们 只 能 使 用 这 些 可 用 的 信息 进行 训练 /检验 ， 并 且 不 能 使 用 训练 后 的 模型 对 该 数据 集 之 
外 的 数据 进行 预测 。 j 


13.6 向 量 核 


最 流行 的 通用 核 函 数 是 
e q iX 25 x, 
K(x ,x)-t(:z--1» (13-29) 


A 机 器 


其 中 gq 由 用 户 选择 。 例 如 ， 当 q=2, d=2 时 ， 


K(x,y) =(x'y+1)? 


一 (Zl yi + 222 FIF 
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=1+2x,y, + 225 yo + 2xi xs yi ys Hy + ai yl 
Od NC FE eR A AY WW AR CCherkassky fll Mulier 1998): 


$ x) — [1 N22, 2 xs [2.25 xa Zi al] 


一 个 例子 在 图 13-4 中 给 出 。 当 q— 1 时 ， 
有 对 应 于 原 公 式 的 线性 核 (linear kernel) 。 
e 径 向 基 函 数 (radial-based function) 


Ü 2 
K(x ,x) = exp| - aE) (13-30) 


25 

E Parzen 窗口 一 样 ( 第 8 章 )， 它 定义 一 个 球 
WR, HP xe, Ms 由 用 户 提 供 ， 定义 
半径 。 这 也 类 似 于 第 12 章 讨 论 的 径 向 基 
PRA. 

一 个 例子 在 图 13-5 中 给 出 。 我 们 看 到 ， 
较 大 的 展 宽 光 滑 了 边界 ， 最 好 的 值 用 交叉 验 
证 找到 。 注 意 ， 当 有 两 个 参数 使 用 交叉 验证 
优化 时 (例如 ， 这 里 的 C 和 s*)， 应 该 在 两 个 


2 


0.5 





0 0.5 1 1.5 2 


图 13-4 被 二 次 多 项 式 核 找 出 的 决策 边界 和 边 
缘 。 圈 住 的 实例 是 支持 向 量 


维 上 进行 栅 格 (因子 ) 搜 索 。 我 们 将 在 19. 2 节 讨 论 搜索 这 种 因子 的 最 佳 组 合 的 方法 。 


我 们 可 以 推广 欧 氏 距离 ， 使 用 马 氏 距离 核 : 


RCs = exp|— > (x — x)" Sx = | (13-31) 
其 中 S 是 协 方差 矩阵 。 或 者 ， 在 最 一 般 的 情况 下 ， 对 于 某 个 距离 函数 刀 (x ，x) 
K(x ,x) = ap - Pe | (13-32) 
e S % & Xt (sigmoidal function) 
K(x',x) = tanh(2x' x' + 1) (13-33) 


其 中 tanh(。) 与 S 形 函数 具有 相同 的 形状 ， 不 同 的 是 它 的 取 值 在 一 1 一 十 1 之 间 。 这 类 似 


于 第 11 章 讨 论 的 多 层 感 知 占 。 





图 13-5 ”被 具有 不 同 展 宽 值 y 的 高 斯 核 找 出 的 决策 边界 和 边缘 。 使 用 较 大 的 展 宽 ， 得 到 更 光滑 的 边界 


13.7 定义 核 


还 可 以 定义 面向 应 用 的 核 。 核 通常 被 看 作 相似 性 的 度量 ， 意 指 从 应 用 的 角度 来 看 ， 当 
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x Aly 更 “相似 ”时 ，K (x，y) 取 更 大 的 值 。 这 意味 着 ,关于 应 用 的 任何 先 验 知识 都 可 以 通 
过 定义 合适 的 核 提 供给 学 习 算 法 (“ 核 工程 ”)， 并 且 核 的 这 种 用 法 可 以 看 作 “ 线 索 ”(11. 8.4 
DWA—-TBF . 

有 串 核 、 树 核 、 图 核 等 (Vert，Tsuda 和 Schólkopf 2004) ， 取 决 于 我 们 如 何 表示 数据 ， 
如 何 度量 这 种 表示 下 的 相似 性 。 

例如 ， 给 定 两 个 文档 ， 出 现在 这 两 个 文档 中 的 词 的 个 数 可 以 作为 核 。 假 定 Di 和 D; 是 
两 个 文档 ， 而 一 种 可 能 的 表示 称 作词 袋 (bag of words)， 其 中 预先 定义 了 M 个 与 任务 相关 
Wik, FMM OCD) AM 维 二 元 向 量 ， 如 果 第 i 个 词 出 现在 D; 中 ， 则 其 第 i 个 分 量 为 
1， 否 则 为 0。 于是，9$(D1)'9(D; ) 计 算 共 享 的 词 的 个 数 。 这 里 ， 我 们 看 到 ， 如 有 果 直 接 把 KK 
(D;，D; ) 作 为 共享 的 词 的 个 数 来 定义 和 实现 ， 则 不 需要 预先 选择 M 个 词 ， 而 是 使 用 词典 
中 的 任何 词 ( 当 然 ， 在 丢弃 诸如 of, and 等 不 提供 信息 的 词 之 后 ) ， 并 且 不 需要 显 式 地 产生 
词 袋 表示 ， 仿 佛 我 们 允许 M 想 多 大 就 多 大 一 样 。 

有 时 (例如 在 生物 信息 学 应 用 中 )， 我 们 可 以 计算 两 个 对 象 之 间 的 相似 度 得 分 (similari- 
ty score) ， 这 不 必 是 半 正 定 的 。 给 定 两 个 (基因 ) 串 ， 一 种 核 度 量 是 编辑 距离 (edit dis- 
tance), ， 即 把 一 个 串 转 换 成 另 一 个 需要 做 多 少 次 操作 (搬入 、 删 除 、 蔡 换 )， 这 又 称 为 比 对 
(alignment) 。 在 这 种 情况 下 ， 一 种 技巧 是 定义 一 个 M 个 模板 的 集合 ， 并 把 对 象 表示 成 一 
个 在 所 有 模板 上 得 分 的 M 维 向 量 。 也 就 是 说 ， 如 果 m GS, e, MER, sx, m) 
是 x 和 m; 之 间 的 得 分 ， 则 定义 

$(x) = [sC m; Yrs am, St my] 
并 且 我 们 定义 经 验 核 映射 (empirical kernel map) 为 
KG',x') = Bx) P(x) 
这 是 一 个 合法 的 核 。 

有 时 ， 我 们 有 二 元 评分 函数 。 例 如 ， 两 种 和 蛋白质 可 能 相互 作用 ， 也 可 能 不 相互 作用 ， 
而 我 们 希望 把 这 推广 到 任意 两 个 实例 的 得 分 。 在 这 种 情况 下 ， 技 巧 是 定义 一 个 图 ， 其 中 市 
点 是 实例 ， 而 两 个 节点 如 果 相 互 作 用 ( 即 该 二 元 评分 返回 1) 则 被 连接 。 于 是 ， 我们 说 两 个 
不 直接 连接 的 节点 是 “相似 的 ”， 如 果 它 们 之 间 的 路 径 短 或 被 许多 路 径 连 接 。 这 把 逐 对 局 部 
相互 作用 转换 成 全 局 相似 性 度量 ， 很 像 Isomap 使 用 的 测 地 距离 (6.7 节 )， 并 称 为 扩散 核 
(diffusion kernel) 。 

如 果 p(x) 是 概率 密度 ， 则 

K(x',x) = p(x’) p(x) 
J&—^4 CEM BRM. 4 p(x) 是 x 的 生成 模型 (度量 看 到 x 的 可 能 性 ) 时 ， 则 使 用 这 个 核 
函数 。 例 如 ， 如 果 x 是 一 个 序列 ， 则 p(x) 可 能 是 隐 马 尔 科 夫 模型 (第 15 章 )。 使 用 这 个 核 
pea, ADAE x Al x 可 能 是 被 相同 模型 产生 的 ， 则 K(x*，x) 将 取 很 高 的 值 。 还 可 以 将 生成 
模型 参数 化 为 p(x19)， 并 且 由 数据 学 习 9， 这 称 作 费 希 尔 核 (Fisher kernel) CJaakkola 和 
Haussler 1998). 


13.8 SRS | 
可 以 通过 组 合 一 些 简 单 的 核 来 构造 新 的 核 。 如 果 OK, x. WA K,(x，y) 是 两 个 合法 的 
核 ， 而 < 是 常数 ， 则 
cK 1 (x, y) 
K(x,y) = 4 Ki G9) + Kole, y) (13-34) 
K, (x,y) * K2(x,y) 
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也 是 合法 的 核 。 

还 可 以 对 x 的 不 同 子 集 使 用 不 同 的 核 。 这 样 ， 我 们 看 到 组 合 核 作为 融合 来 自 不 同 信 息 
源 的 信息 的 另 一 种 方法 ， 其 中 每 个 核 都 根据 自己 的 领域 度量 相似 性 。 当 我 们 有 来 自 两 种 表 
示 A 和 B 的 输入 时 ， 

Ka(xasya)+ Ke (xp syn) 一 加 (xza) Qa ya) +p (x5) balys) 
= (x) $C y) 
=K(x,y) (13-35) 
其 中 x 二 [Lxas，xsj 是 两 种 表示 的 连接 。 也 就 是 说 ， 取 两 个 核 的 和 对 应 于 在 连接 的 特征 问 量 
中 做 点 积 。 这 可 以 推广 到 大 量 核 


K(x,y) = MK (x,y) (13-36) 


jx FEW BP 2S AE OE 17. 4 节 )， 这 次 是 在 核 上 取 平均 ， 省 得 我 们 必须 选择 一 个 特定 
的 核 。 还 可 以 取 加 权 和 ， 并 由 数据 学 习 权 重 (Lanckriet 等 2004; Sonnenburg 等 2006); 


K(x,y) = Y pK Gy) (13-37) 
满足 % 宇 0， 满 足 或 不 满足 约 东 Din = 1, DR DAA ARB A. AKE S i 


& 2] (multiple kernel learning)， 其 中 用 核 的 加 权 和 取代 单 核 。 单 核 目 标 函 数 式 (13-27) 
变 成 


La = Da — 72] Daiarr 3 yg Ki GC ox) (13-38) 
它 求解 支持 癌 量 机 参数 和 核 权 重 六 。 多 核 的 组 合 也 出 现在 判别 式 中 
g(x) = 2 ar 2 y K GP) (13-39) 


训练 后 ， 六 的 取 值 取决 于 对 应 的 核 K, x, x ERU SIS ER. 还 可 以 通过 把 核 权 
重 定义 为 输入 x 的 有 参 函 数 对 核 局 部 化 ， 这 非常 像 混合 专家 模型 的 门 控 函数 (17. 8 节 ) 


g(x) Dar Yopal KG! x) (13-40) 


并 且 门 控 参数 0, 与 支持 向 量 机 参数 一 起 学 习 (G6nen 和 Alpaydin 2008)。 

当 有 来 自 多 个 不 同 的 表示 或 不 同形 态 下 的 多 个 源 的 信息 时 (例如 ， 在 语音 识别 中 ， 可 
能 有 声波 和 层 动 图 像 )， 通 常 的 方法 是 把 它们 分 别提 供给 不 同 的 分 类 占 ， 然 后 融合 它们 的 
决策 。 我 们 将 在 第 17 章 详 细 讨 论 这 种 方法 。 组 合 多 个 核 提供 了 男 一 种 集成 多 源 输入 的 方 
法 ， 其 中 单个 分 类 器 对 不 同 源 的 输入 使 用 不 同 的 核 ， 因 此 有 不 同 的 相似 性 概念 (Noble 
2004) 。 于 是 ， 局 部 化 版 本 可 以 看 作 它 的 扩展 ， 它 可 以 根据 输入 来 选择 数据 源 ， 从 而 选择 
相似 性 度量 。 


13.9 多 类 核 机 器 


当 存 在 K>2 个 类 时 ， 直 截 了 当 的 一 对 所 有 (one-vs-all) 方 法 是 定义 K 个 两 类 问题 ， 每 
个 都 把 一 个 类 与 其 他 所 有 类 分 开 ， 并 学 习 K 个 支持 向 量 机 gi(x) (i 二 1，…，K)。 也 就 是 
说 ， 在 训练 g;(x) 时 ，C; 类 的 实例 标记 为 十 1， 而 Ci(k 关 让 类 的 实例 标记 为 一 1。 在 检验 时 ， 
计算 所 有 的 g;(x)， 并 选择 最 大 的 。 

Platt(1999) 提 出 用 一 个 S 形 函数 拟 合 单个 (2 类)SVM 的 输出 ， 把 输出 转换 成 后 验 概 
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率 。 类 似 地 ， 可 以 训练 一 个 软 最 大 输出 层 来 最 小 化 互 粹 ， 产 生 天 之 2 个 后 验 概率 (Mayoraz 
Al Alpaydin 1999): 


K 
y(x) = DS) oy f; GO + vi (13-41) 
j=l 


其 中 f;(x) 是 SVM WA, M y ERAR. WIAA Rv, ode NE BU S SAM m E 
HEX. SEB P—H17.9 30, WA vi 的 数据 应 当 不 同 于 用 来 训练 基本 支持 向 量 机 f; GO 
的 数据 ， 以 便 减 轻 过 拟 合 。 

与 其 他 分 类 方法 一 样 ， 不 是 构建 K 个 两 类 SVM 把 一 个 类 与 其 余 类 分 开 的 通常 办 法 ， 
可 以 构建 K(K 一 1)/2 个 逐 对 (pairwise) 分 类 器 (又 见 10.4 节 )， 每 个 gy (x) 取 C; 类 实例 标 
记 为 十 1，C; 类 实例 标记 为 一 1， 并 且 不 使 用 其 他 类 的 实例 。 一 般 认 为 逐 对 把 类 分 开 是 一 个 
较 简 单 的 事 ， 另 外 的 优点 是 由 于 使 用 较 少 的 数据 ， 优 化 更 快 。 但 注意 ， 这 需要 训练 O(K”) 
个 而 不 是 O(K ) 个 判别 式 。 

在 一 般 情 况 下 ， 一 对 所 有 和 逐 对 分 开 都 是 把 一 个 多 类 问题 分 解 成 一 组 两 类 问题 的 校正 
输出 码 (error-correcting output code) 的 特例 (Dietterich 和 Bakiri 1995) CX. 9, 17. 6 节 )。 作 
为 两 类 分 类 需 的 SVM 是 两 类 分 类 的 理想 选择 (Allwein，Schapire 和 Singer 20000, ， 并 且 还 
可 以 有 增 量 方法 ， 增 加 新 的 两 类 SVM， 更 好 地 把 存在 问题 的 一 对 类 分 开 ， 以 改善 不 理想 
的 ECOC 和 矩阵 (Mayoraz 和 Alpaydin 1998), 

另 一 种 可 能 的 方法 是 设计 一 个 涉及 所 有 类 的 多 类 (mnulticlass) 优 化 问题 (Weston 和 
Watkins 1998): 


min 5 lwl? - C y» (13-42) 
ZRF 
wx Tw Swx two t2-—E, Vir HE SO 

其 中 ，z' 包 含 x' 的 类 索引 。 正 则 化 项 同时 最 小 化 所 有 超 平面 的 范 数 ， 而 约束 是 确保 该 类 与 
任何 其 他 类 之 间 的 边缘 至 少 为 2。 正 确 类 的 输出 应 当 至 少 为 十 1， 其 他 类 的 输出 应 当 至 少 为 
一 1， 而 定义 松弛 变量 用 来 补差 。 

尽管 这 看 上 去 漂亮 ， 但 是 一 对 所 有 方法 通常 更 可 取 ， 因 为 它 分别 解 K 个 NN 个 变量 的 
问题 ， 而 多 类 方法 使 用 K+ NN 个 变量 。 


13.10 ”用 于 回归 的 核 机 器 


现在 ， 让 我 们 看 看 如 何 将 支持 癌 量 机 推广 到 回归 问题 。 我 们 看 到 相同 的 定义 可 接受 的 
边缘 、 松 弛 变量 、 综 合 光 滑 性 和 误差 的 正则 化 函数 的 方法 在 这 里 也 能 用 。 从 线性 模型 开 
始 ， 稍 后 看 看 如 何 使 用 核 限 数 : 
f(x) = wx + wo 
对 于 一 般 的 回归 ， 使 用 差 的 平方 作为 误差 : 
&r.fu) = Le = FOC! 
然而 ， 对 于 文 持 回 量 回归 ， 使 用 es BRI R PA: 
atr Fn = 1 EEP cc fort yes (13-43) 

|"^— fixD|—e 否则 

这 意味 我 们 容忍 高 达 e 的 误差 ， 并 且 超 出 的 误差 具有 线性 而 不 是 平方 影响 。 因 此 ， 这 种 误 

差 函 数 更 能 抵御 噪声 ， 因 而 更 加 鲁 棒 (参见 图 13-6)。 与 转折 点 损失 中 一 样 ， 有 一 个 区 域 没 


wz 机 & 


有 误差 ， 这 导致 稀 朴 性 。 

类 似 于 软 边缘 超 平面 ， 我 们 引入 松弛 变量 
KARM e 区 域外 的 偏差 .， 并且 得 到 (Vapnik 
1995); 


min >l w|*--C* i-r e» (13-44) 


ZRF 

r—(wix-- wy) &e-- 84 

(wix+tw)—r [Ket EL 

& »& 20 

ix B, MIEN A BS ee, REH T AF 
型 的 松弛 变量 ， 以 保持 它们 为 正 。 实 际 上 ， 可 
以 把 这 看 作 两 个 背靠背 加 上 的 转折 点 损失 ， 一 
个 用 于 正 松 弛 ， 一 个 用 于 负 松 弛 。 该 式 对 应 于 
式 (13-43) 中 给 出 的 s 敏感 损失 函数 。 拉 格 朗 
日 方程 是 
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me a ee | 

-8 -6 -4 -2 0 2 4 6 8 

图 13-6 RRA AMA e BRRR. R 
们 看 到 e RRE PHBA SIRE A 
影响 ， 并 且 受 大 误差 的 影响 也 较 小 ， 
因此 对 离 群 点 更 鲁 棒 


Es => lwl +O 448) Pa [et 


Xat [e+ Etr — CwT x 4-w)] — > y &- ut &) (13-45) 
取 偏 导数 ， 得 到 
oL =W — Dy (a — a )x' = 0>a = Dy (a at )x (13-46) 
OL, _ i B : 
= = 2 Cai x = 0 (13-47) 
aL, 
OPP set WE. (13-48) 
o£. 7E we 
aL, 
St C t— —(Q 13-49 
Be a-— ( ) 
对 偶 问 题 是 
La —— 15] Sahat Cah a) (x) — 
P (13-50) 
e >) lata) + 3 r'CG&— aL) 
受 限于 


Q E ae Cy Os w=. EN 


>) Cat — ak) =0 


一 且 求 出 它 的 解 ， 就 会 看 到 落 入 管 (tube) 中 的 所 有 实例 都 有 a =a 二 0。 这 些 是 以 足 
够 精度 拟 合 的 实例 (参见 图 13-7) 。 支 持 向 量 满足 a 二 0 或 a 二 0， 并 且 都 是 这 两 种 类 型 。 
它们 可 能 是 管 边界 上 的 实例 (Co 9X a- TE 0C 之 间 )， 并 且 使 用 它们 计算 w。。 例 如 ， 假定 
a'-220, MA r'—x x tw te., WE e 管 外 的 实例 是 第 二 种 类 型 ,这些 是 没有 很 好 拟 合 的 


实例 (a =C, WA 13-7 Bra. 


使 用 式 (13-46)， 可 以 把 拟 合 直 线 写 成 支持 向 量 的 加 权 和 : 
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f(x) = watu = (at) (x) e+ wr (13-51) 


Th (13-50) P AY BA Ge ox th np DAK PR K Cx’, x o MRM, 并且 类 似 地 ，(x') x nf 
以 用 核 函 数 天 (xz，x) 蔡 换 ， 可 以 得 到 非 线 性 拟 合 。 使 用 多 项 式 核 将 类 似 于 拟 合 一 个 多 项 
式 (参见 图 13-8) ， 而 使 用 高 斯 核 ( 参 见 图 13-9) 则 类 似 于 非 参 数 光 滑 模 型 (8. 8 节 )， 不 同 之 
处 在 于 由 于 解 的 稀疏 性 ， 所 以 不 需要 整个 训练 集 ， 而 只 需要 一 个 子 集 。 





图 13-7 “X ?表示 拟 合 数据 点 的 回归 线 ， 并 显示 了 *e 图 13-8 ”显示 使 用 二 次 核 函 数 拟 合 的 回归 线 和 


¥(C=10, e=0. 25). A3 种 情况 : a) 实例 <s 管 (C 王 10，s 一 0.25)。 圆 中 的 实例 
ER P; po 实例 在 管 的 边界 上 ( 圆 中 的 实 是 边缘 上 的 支持 向 量 ， 方 框 中 的 实例 
例 ); o LHI TERS, A ATER HS SO. BI 是 离 群 点 支持 向 量 


& 过 0( 方 框 中 的 实例 )。b) 和 c) JE FF I] 
H. 用 对 偶 变 量 来 表示 ， 在 a) 中 有 a, 一 0， 
a —0; ED) PA a <C; HE) PA a =C 





v SER 
a) 3 =5 b) s?=0.1 


13-9 显示 使 用 两 个 具有 不 同 展 宽 的 高 斯 核 拟 合 的 回归 线 和 ee 管 (C= 二 10，e 二 0.25)。 圆 中 的 实例 
是 边缘 上 的 支持 向 量 ， 方 框 中 的 实例 是 离 群 点 支持 向 量 


对 于 回归 ， 也 有 一 个 等 价 的 v-SVM(Scholkopf 等 2000) ， 其 中 取代 固定 的 s， 我 们 固 
E v 来 限制 支持 癌 量 的 比例 。 仍 然 需要 C. 


13. 11 用 于 排名 的 核 机 器 


回想 在 排名 时 ， 我 们 有 需要 按 一 定 方式 排序 的 实例 (Liu 2011)。 例 如 ， 可 能 有 像 rn rx 
样 的 成 对 约束 ， 这 意味 着 实例 x 应 该 产生 : 比 x* 更 高 的 得 分 。 在 10.9 节 中 ， 我 们 讨论 了 如 何 
对 此 使 用 梯度 下 降 来 训练 一 个 线性 模型 。 现 在 ， 我们 讨论 如 何 使 用 支持 向 量 机 做 同样 的 事 。 
把 每 个 成 对 约束 看 作 一 个 数据 实例 1:: r<, RME 
L, = 3]wl: - CXje (13-52) 
ZRF 


w'x'-wu"-Fl—P ee tr <r 
& > 0 (13-53) 
式 (13-53) 要 求 x* 的 得 分 至 少 比 x" 的 得 分 多 1 个 单位 ， 从 而 定义 了 边缘 。 如 果 约 束 不 
满足 ， 则 松弛 变量 是 非 零 ， 并 且 式 (13-52) 最 小 化 这 样 的 松弛 变量 和 复杂 度 项 的 和 ， 这 又 
对 应 于 使 边缘 的 宽度 尽 可 能 大 (Herbrich，Obermayer 和 Graepel 2000; Joachims 2002), 
注意 ， 除 1 个 单位 边缘 外 ， 第 二 项 松弛 变量 的 和 与 式 (10-46) 中 使 用 的 误差 相同 ， 并 且 与 
之 前 所 讨论 的 一 样 ， 复 杂 度 项 可 以 解释 为 线性 模型 的 权重 衰减 项 (参见 11. 10 节 )。 
注意 ， 对 每 个 序 已 定义 的 对 偶 有 一 个 约束 ， 因 此 这 种 约束 的 个 数 为 O(N*)。 式 (13-53) 
的 约束 也 可 以 记 作 
w(x“ — x") >1-¢ 
也 就 是 说 ,我们 可 以 把 这 看 作 是 一 个 逐 对 差 x* 一 x" 的 两 类 分 类 。 这 样 通过 计算 这 些 差 
并 根据 x* 过 rm 还 是 xr" 过 rr* 把 它们 分 别 标 记 7'E1{ 一 1， 十 1},， 任何 两 类 核 机 器 都 可 以 用 来 实 
现 排名 。 但 这 不 是 最 有 效 的 方法 ,已 经 提出 了 更 快 的 方法 (Chapelle 和 Keerthi 2010), 
对 偶 问 题 是 


fg 2 =F € (x* —4)T (a — 2") (13-54) 


AR O<a'<C, XH, t Ms 是 两 对 约束 ， Wt: rns: <r IERE, AF 
EARN. A&=0 Ala’ —0; 对 于 满足 约束 但 在 边缘 中 的 ， 有 0 过 8 二 1 MaC 而 对 于 
不 满足 约束 (并 被 误 标记 ) 的 ， 有 E>] M adC, 

对 于 新 的 检验 实例 x， 得 分 用 下 式 计算 : 


g(x) = dja! G* — x")!x (13-55) 
26 th JE IR] al. GE BS [RTL APE OP PRICE IRA ZELLE OA BUS Rind OT). 


13.12 一 类 核 机 器 


文 持 向 量 机 最 初 是 为 分 类 提出 的 。 通 过 
为 回归 线 附 近 的 偏差 而 不 是 为 判别 式 定 义 松 
弛 变量 ，SVM 被 扩展 到 回归 。 现 在 ， 我 们 看 
看 如 何 把 SVM 用 于 一 类 受 限 的 非 监督 学 习 ， 
即 估计 高 密度 区 域 。 我 们 并 不 进行 全 密度 估 
计 ， 而 是 想 找 出 把 高 密度 区 域 与 低 密度 区 域 
分 开 的 边界 (因此 它 像 一 个 分 类 问题 )(Tax 和 
Duin 1999) 。 这 种 边界 可 以 用 于 新 颖 性 (nov- 
elty) 或 离 群 点 检测 (outlier detection) 。 这 也 
称 作 一 类 分 类 (one-class classification) 。 

考虑 一 个 中 心 为 a、 半 径 为 R 的 球 。 我 





0 0.5 1 1.5 2 


图 13-10 一 类 支持 向 量 机 把 光滑 的 边界 (这 里 
使 用 线性 核 函数 ， 圆 具有 最 小 半径 ) 


们 希望 它 围 住 的 密度 尽 可 能 大 ， 其 中 密度 根 放置 在 围 住 尽 可 能 多 的 实例 的 地 方 。 
据 经 验 用 训练 集 百 分 比 度 量 。 同 时 ， 与 之 权 存在 3 种 可 能 的 情况 : a) 实例 是 典型 
衡 ， 我 们 希望 找到 最 小 半径 (参见 图 13-10)。 dene de ae 
为 落 在 球 外 的 实例 定义 一 个 松弛 变量 (只 有 一 Ti b) 和 0) 是 支持 向 量 。 Hx 
种 类 型 的 松弛 变量 ， 因 为 只 有 来 目 一 个 类 的 量 的 术语 表示 , 在 a) 中 有 w=0; 在 


实例 ， 并 且 对 落 在 球 内 的 那些 没有 惩罚 ) ， 并 b) 中 有 0<a'<C; fg OPH d =C 
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且 有 一 个 正比 于 半径 的 光滑 性 度量 : 
min R* +C) jë (13-56) 
受 限 于 
|x —a|l' SRE REF SONi 
An bjixX HAR, $E |x al = xa)" (x'—a), AH H F: 
L, = R’ TC» — dja‘ R? + & —[(x')'x' —2a'x +a'a]|) — 2E (13-57) 
其 中 >20, y>0 是 拉 格 朗 日 乘 子 。 关 于 参数 求 导 ， 得 到 


oL E gz Pune 

ƏR 一 2R — 2R Q 三 0 一 > a = I (13-58) 
= = > a'(2x' — 2a) = 0a = > a! x' (13-59) 
oL 

oc , 


由 于 Y 之 0， 所 以 可 以 把 最 后 一 个 约 东 写成 : 0 委 vw 委 C。 把 这 些 代 人 式 (13-53)， 得 到 
关于 a' 最 大 化 的 对 偶 问 题 : 
L= Puta — D>) aat Cs (13-61) 
受 限 于 
(<7 «CH a1 


当 求 解 该 优化 问题 时 ， 再 次 看 到 大 部 分 实例 随 着 它们 的 w=0 消失 ; 这 些 是 落 在 球体 
内 的 典型 的 、 高 度 相 似 的 实例 (参见 图 13-10)。 有 两 种 类 型 的 支持 向 量 满足 a 二 0。 满 足 0 
«aC 且 落 在 边界 上 的 实例 ，|x' 一 al*= 二 R*'(& 二 0)， 这 些 用 来 计算 R。 WE a —ClE> 
0) 的 实例 且 落 在 边界 外 ， 是 离 群 点 。 由 式 (13-55)， 我 们 看 到 中 心 a 是 支持 向 量 的 加 权 和 。 

于 是 ， 给 定 一 个 检验 输入 x， 我 们 说 它 是 离 群 点 ， 如 果 

Ix —al >R 
或 
x'x—2a'x+a'a> R’ 

使 用 核 郴 数 ， 可 以 不 限于 球 ， 可 以 定义 任意 形状 的 边界 。 将 点 积 用 核 图 数 奉 换 ， 得 到 

( 受 限 于 相同 的 约束 ): 
i = Sa K (x! x") — bj 5 ala K Gc x) (13-62) 


例如 ， 使 用 二 次 多 项 式 核 可 以 使 用 任意 的 二 次 曲面 。 如 果 使 用 高 斯 核 ( 式 (13-30))， 

则 有 局 部 球 的 并 。 我 们 拒绝 x, WR 
K(x,x)—2 V a'K G,x) + >) J a'a K (x, x) > R? 

第 三 项 不 依赖 于 x， 因 此 它 是 常量 (我 们 把 它 用 作 等 量 ， 以 便 求解 R， 其 中 x 是 边缘 上 

的 实例 )。 在 高 斯 核 的 情况 下 ，K (x，x) 二 1， 该 条 件 约 简 为 :对 某 个 常数 R, 
5» a'KoG.x') < Re 

ER T Re PES Sb. IX AEP AA Ee aE E RAAR Eite. 2.2 7, BULA 13-1). 

一 类 支持 向 量 机 表示 也 有 一 种 替代 的 、 等 价 的 0 SVM 类 型 ， 它 使 用 光滑 的 标准 型 
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a) s*=] b) s*=0.1 
图 13-11 使 用 具有 不 同 展 宽 的 高 斯 核 的 一 类 支持 问 量 机 


13.13 大 边缘 最 近邻 分 类 


在 第 8 章 中 ， 我 们 讨论 了 非 参 数 方法 。 它 不 是 用 一 个 全 局 模型 拟 合 数据 ， 而 是 从 相 邻 
实例 的 一 个 子 集 插值。 特别 是 在 8. 6 节 ， 我们 曾 述 了 使 用 好 的 距离 度量 的 重要 性 。 现 在 ， 
我 们 讨论 从 数据 中 学 习 距 离 度 量 方 法 。 严 格 地 说 ， 这 不 是 核 机 器 ， 但 是 它 使 用 了 保持 边缘 
排名 的 思想 ， 正 如 我 们 在 13. 11 节 指 出 的 。 

其 基本 思想 是 把 & 最 近邻 分 类 (第 8.4 节 ) 看 作 一 个 排名 问题 。 假 定 关 的 & 最 近邻 包括 
PASSE BA x^ x’, EG x 和 x’' 属 于 同一 类 ， 而 x 属于 男 一 类 。 在 这 种 情况 下 ， 我 们 想 要 
一 个 距离 度量 ,使 得 x 和 x' 之 间 的 距离 大 于 x' 和 x’ 之 间 的 距离 。 实 际 上 ， 我 们 不 仅 需 要 前 
者 的 距离 比 后 者 大 ， 而 且 要 求 它 们 之 间 有 一 个 单位 的 边缘 ， 如 果 不 满 足 ， 对 于 差 ， 我 们 有 
一 个 松弛 变量 ， 

DG x’) > D(x' x7) +1-—e 

距离 度量 就 像 排 名 问题 中 的 评分 函数 ， 并 且 每 个 三 元 组 都 定义 了 一 个 与 式 (13-53) 中 
一 样 的 排名 约束 。 

这 就 是 大 边缘 最 近邻 (Large Margin Nearest Neighbor, LMNN) 算法 的 基本 思想 
(Weinberger 和 Saul 2009) 。 最 小 化 的 误差 图 数 是 ; 


(1—p) > DG! x) +H uY, A — yi) Ez (13-63) 
ag Ln 


受 限 于 
DIG! ,x' ) zen xe )+1-, wRr Sr Boer sr’ 
e” > 0 
这 里 ，x’' 是 x' 的 & 最 近邻 之 一 ， 并且 它 们 属于 相同 的 类 : r=r 它 是 一 个 有 目标 
(target) 近 邻 。x 也 是 x' 的 & 最 近邻 之 一 。 如 果 它 们 有 相同 的 标号 ， 则 yj 设置 为 1 且 没 有 
损失 ;如 果 它 们 是 不 同 的 类 ， 则 兰 是 一 个 假冒 者 (impostor)， 办 设置 为 0， FH iR 
式 (13-64) 不 满足 ， 则 松弛 变量 定义 了 一 个 代价 。 式 (13-63) 的 第 二 项 是 这 样 的 松弛 变量 之 
和 。 第 一 项 是 到 所 有 目标 近邻 的 总 距离 ， 并 且 最 小 化 具有 正则 化 的 效果 一 一 我 们 想 保 持 距 
离 尽 可 能 小 。 
在 LMNN 中 ,使 用 马 氏 距离 作为 距离 度量 模型 : 
DG! ,x! |M) = Gc — x’) M(x — x’) (13-65) 


(13-64) 
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H M 和 矩阵 是 待 优化 的 参数 。 式 (13-63) 定 义 了 一 个 丁 ( 更 准确 地 说 ， 半 正定 ) 问 题 ， 因 此 具 
有 唯一 极 小 。 

当 输入 维度 高 并 且 只 有 少量 数据 时 ， 与 式 (8-21) 中 讨论 的 一 样 ， 可 以 通过 将 M 分 解 为 
L'LCK F} L Sik Xd 矩阵，&<d) 来 正则 化 : 

DG! x |L) = || Lx‘ — Lx’ |? (13-66) 

Lx 是 x Wk 维 投影 ， 而 原始 d "Ex 空间 中 的 马 氏 距离 对 应 于 新 的 & 维 空间 中 的 ( 平 
方 ) 欧 氏 距离 (例如 ， 参 见 图 8-7)。 如 果 把 式 (13-66) 作 为 距离 度量 代入 式 (13-63)， 则 得 到 
大 边缘 支 分 析 (Large Margin Component Analysis，LMCA) 算 法 (Torresani 和 Lee 2007). 
但 是 ， 这 不 再 是 一 个 凸 优化 问题 ， 并 且 如 果 使 用 梯度 下 降 法 ， 则 得 到 一 个 局 部 最 优 解 。 


13.14 fZ HE TE UA 2S 


从 6.3 WRT AGE, HRI Te CMR ARK EAE EIS] RE ek, ER 
分 分 析 (PCA) 降 低 维度 。 如 果 数 据 实例 是 中 心 化 的 CELxj=0)， 则 这 可 以 记 作 X! X. TEE 
版 本 中 ， 我 们 在 $x) 的 空间 而 不 是 在 原始 x 空间 中 处 理 ， 因 为 通常 这 个 新 空间 的 维度 4 可 
能 比 数据 集 的 大 小 N 大 得 多 ,我们 宁愿 使 用 NXN 和 矩阵 XXTI 并 做 特征 峙 入 ， 而 不 愿 使 用 
4dXad 和 矩阵 XIX。 投 影 后 的 数据 矩阵 是 B= 二 p(x)， 因 此 在 DO 的 特征 向 量 上 进行 处 理 因 而 
TEAK SBME KK 上 进行 处 理 。 

核 PCA(kernel PCA) 使 用 核 矩 阵 的 特征 向 量 和 特征 值 ， 而 这 对 应 于 在 由 zx) 空间 中 做 
线性 维度 归 约 。 当 c 和 驴 是 对 应 的 特征 向 量 和 特征 值 时 ， 投 影 后 的 新 的 & 维 值 可 以 用 下 式 
计算 : 

xj Aw) j = limbs f—1l,N 

图 13-12 给 出 了 一 个 例子 ， 其 中 首先 使 用 二 次 核 ， 然 后 再 使 用 核 PCA 把 维度 (从 五 
维 ) 降 到 二 维 ， 并 在 那里 实现 线性 SVM。 注意， 在 一 般 情况 下 (例如 ， 使 用 高 斯 核 ) TRAE 
值 不 一 定 衰减 ， 并 且 不 能 保证 可 以 使 用 核 PCA 降低 维度 。 





9 0.95 L05 Li LB 
zl 
a) x 空间 中 的 二 次 核 b) x 空间 中 的 一 次 核 


图 13-12 取代 使 用 原始 空间 中 的 二 次 核 a)， 我 们 使 用 二 次 核 值 上 的 核 PCA 映射 到 二 维新 空间 ， 这 里 
我 们 使 用 线性 判别 式 b); (五 维 中 的 ) 这 两 个 维 贡 献 了 方差 的 80% 


这 里 ， 我 们 做 的 是 使 用 核 值 作为 相似 度 值 进行 多 维 定 标 (6.7 150. PMN, Mk=2, 我 
们 可 以 在 被 核 矩 阵 导 出 的 空间 中 观察 数据 ， 这 可 以 让 我 们 看 到 所 使 用 的 核定 义 的 相似 性 的 
效果 如 何 。 线 性 判别 分 析 (LDA，6. 8 节 ) 也 可 以 类 似 地 核 化 (Miiller 等 2001) 。 典 范 相 关 分 
析 (CCA， 参 见 6. 9 节 ) 的 核 化 版 本 在 Hardoon, Szedmak, Shawe-Taylor 2004 中 讨论 。 

在 第 6 章 中 ， 我 们 讨论 了 非 线性 维度 归 约 方法 ，Isomap 和 LLE。 事 实 上 ， 把 式 (6- 
58) 中 的 代价 矩阵 的 元 素 看 作 输 入 对 的 核 估计 值 ，LLE 可 以 看 作 选 择 了 特定 核 的 核 PCA, 
当 核 函数 定义 为 图 中 的 测 地 距离 时 ， 这 一 结论 对 Isomap 也 成 立 。 


13.15 ”注释 


3 IE £X PE BE ww ACFE BC HE RY BU HB as a] HE HE Be PE Be AY BS RA, TA RE SF IRI 
量 机 的 新 颖 性 之 处 是 把 它 集 成 到 学 习 算 法 中 ， 其 参数 用 数据 子 集 定 义 ( 所 谓 的 对 偶 表 示 
(dual representation) ) ， 因 此 也 不 需要 显 式 地 计算 基因 数 ， 从 而 训练 集 的 大 小 就 限制 了 计 
算 复杂 性 。 对 于 高 斯 过 程 情况 也 如 此 ， 高 斯 过 程 中 核 函 数 称 作协 方差 函数 (16.9 市 )。 

解 的 稀疏 性 表明 与 & 最 近邻 和 Parzen 窗口 或 高 斯 过 程 这 样 的 非 参 数 估 计 相 比 ， 核 方 
法 更 具 优 势 ， 并 且 使 用 核 函 数 的 灵活 性 使 我 们 能 够 处 理 非 向 量 数据 。 由 于 优化 问题 存在 唯 
一 解 ， 所 以 不 需要 像 神 经 网 络 那 样 使 用 迭代 优化 过 程 。 由 于 所 有 这 些 理由 ， 所 以 支持 向量 
机 现在 被 看 作 最 好 的 现成 的 学 习 器 ， 并 被 广泛 地 应 用 于 许多 领域 ， 特 别 是 生物 信息 学 
(Schólkopf, Tsuda 和 Vert 2004) 和 自然 语言 处 理应 用 ， 那 里 正在 开发 越 来 越 多 的 技巧 来 
得 到 核 图 数 (Shawe-Taylor 和 Cristianini 2004), 

核 函 数 的 使 用 意味 不 同 的 数据 表示 我 们 不 再 只 是 把 实例 (对 象 / 事 件 ) 目 己 定义 成 属性 
的 向 量 ， 而 是 依据 它 与 其 他 实例 相似 或 差异 程度 来 定义 它们 。 这 类 似 于 使 用 距离 矩阵 (不 
必 知 道 如 何 计算 ) 的 多 维 定 标 和 使 用 空间 中 的 向 量 的 主 成 分 分 析 之 间 的 差别 。 

支持 向 量 机 被 认为 是 目前 最 好 的 现成 的 学 习 算 法 ， 并 已 成 功 应 用 于 不 同 的 领域 中 。 事 
3c 上， 我 们 正在 解决 一 个 凸 问题 ， 而 允许 我 们 把 先 验 信息 编码 的 核 思想 已 经 使 它 很 流行 。 
关于 支持 向 量 机 和 所 有 类 型 的 核 机 器 有 大 量 文献 。 经 典 的 书 是 Vapnik (1995, 1998) 和 
Schólkopf 和 Smola(2002), Burgess 1998, Smola 和 Schólkopf 1998 分 别 是 SVM 分 类 和 
回归 的 好 指南 。 有 许多 免费 软件 包 ， 最 受 欢迎 的 有 SVMlight(Joachims 2004) 和 LIBSVM 
(Chang 和 Lin 2008) , 


13.16 ”习题 


1. 提出 一 种 过 滤 算 法 ， 找 出 非常 可 能 不 是 支持 向 量 的 训练 实例 。 
f. 支持 向 量 是 那些 靠近 边界 的 实例 。 因 此 ， 如 果 一 个 实例 被 大 量 同类 实例 包围 ， 
则 它 很 可 能 不 被 选择 为 支持 向 量 。 因 此 ， 例 如 ， 我 们 可 以 对 所 有 实例 做 一 次 11 最 近邻 
搜索 ， 如 果 一 个 实例 的 所 有 11 个 近邻 都 与 它 同 属 一 类 ， 则 我 们 可 以 从 训练 集 剪 掉 该 
实例 。 
2. 在 式 (13-31) 中 ， 如 何 估 计 S? 
解 : 我 们 可 以 计算 数据 的 协 方差 矩阵 并 用 作 S。 另 一 种 可 能 的 方法 是 ， 对 每 一 个 文 
持 向 量 有 一 个 局 部 S$ ， 并 且 可 以 使 用 一 些 邻 域 数 据点 来 估计 它 。 我 们 可 能 需要 设法 确 
保 S 不 是 奇异 或 降 维 的 。 
3. 在 经 验 核 映射 中 ， 如 何 选择 模板 ? 
fA: 最 简单 、 最 常用 的 方法 是 使 用 所 有 的 训练 实例 ， 并 且 在 这 种 情况 下 $9(，) 是 NN 
维 的 。 我 们 可 以 通过 选择 一 个 子 集 来 降低 复杂 度 并 使 模型 更 有 效 。 我 们 可 以 使 用 一 个 
随机 选择 的 子 集 ， 进 行 聚 类 ， 并 用 簇 中 心 作 为 模板 (如 在 向 量 量化 中 那样 ) ， 或 使 用 一 
个 以 尽 可 能 少 的 实例 覆盖 输入 空间 的 子 集 。 
4. 在 式 (13-40) 的 局 部 化 的 多 核 中 ， 为 n(x19) 提 出 一 个 合适 的 模型 ， 并 讨论 如 何 训练 它 。 
5. 在 核 回 归 中 ， 如 果 有 的 话 ，e 与 噪声 方差 之 间 有 何 关系 ? 
6. 在 核 回 归 中 ， 在 偏 傈 和 方差 中 使 用 不 同 的 es 有 什么 影响 ? 
解 : es 是 光滑 参数 。 当 它 太 大 时 ， 过 于 光滑 ， 这 样 会 降低 方差 ， 但 增加 偶 倚 。 如 采 
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EARN» MA AY BEC rf fia FARE Ze ACN) 
7. RAER HEF DER [RI ek XR TR] ed AAV} R R AK PCs 


解 : 原 问 题 是 
L, = Flw - ce 
受 限 于 
wlx — x) >1— g 
382 E" 2x0 
对 偶 问 题 是 


La = Sia’ = D 2 Ja'a^ K (x" EF. ema) 
AB K Cx"— x", x*—x))—d4(x*—x»'é(ix* —x ), 
对 于 新 的 检验 实例 x， 得 分 用 下 式 计 算 
g(x) = Ya'K (x" — x’, x) 


8. 如 何 对 分 类 使 用 一 类 SVM? 
fee: 我 们 可 以 对 每 个 类 使 用 一 个 一 类 SVM， 并 组 合 它 们 来 做 出 决策 。 例 如 ， 对 于 
每 个 类 C, ， 我 们 拟 合 一 个 一 类 SVM， 找 出 参数 ai: 
S atK Go x) 


然后 可 以 把 这 作为 pC(x|C;) 的 估计 。 如 果 先 验 大 臻 相等 ， 则 可 以 简单 地 选择 具有 最 大 值 
的 类 ， 和 否则 可 以 使 用 贝 叶 斯 规则 分 类 。 

9. 在 图 13-12 的 情况 中 ， 使 用 高 斯 核 的 核 PCA。 

10. 假定 我 们 有 相同 对 象 的 两 种 表示 ， 并 且 相 互 关联 ， 我 们 有 不 同 的 核 。 使 用 核 PCA， 如 
何 使 用 这 两 种 表示 实现 联合 维度 归 约 ? 
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图 万 法 





图 模型 可 视 化 地 表示 变量 之 间 的 相互 影响 ， 并 且 它 有 一 个 优点 : 利用 条 件 独 立 性 可 以 
将 大 量变 量 上 的 推断 分 解 成 一 组 涉及 少量 变量 的 局 部 计算 。 在 给 出 一 些 手 工 推断 的 例子 
后 ， 我 们 讨论 d 分 离 和 各 种 图 上 的 信念 传播 算法 。 


14.1 引言 


图 模型 (graphical model) 又 称 为 贝 叶 斯 网 络 (Bayesian network), 4 & A 2& (belief net- 
work) 或 概率 网 络 (probabilistic network), ， 它 由 节点 和 节点 之 间 的 有 向 弧 构 成 。 每 个 节点 
对 应 于 一 个 随机 变量 X， 并 且 具 有 一 个 对 应 于 该 随机 变量 的 概率 值 P(X)。 如 果 存 在 一 条 
从 节点 X 到 节点 YY 的 有 向 弧 ， 则 表明 X 对 Y 有 直接 影响 (direct influence), 3x — 5 i gk 
条 件 概率 P(Y|X) 所 指定 。 网 络 是 一 个 有 向 无 环 图 (Directed Acyclic Graph, DAG), BIA 
中 没有 环 。 节 点 和 节点 之 间 的 弧 定 义 了 网 络 的 结构 ， 而 条 件 概 率 是 给 定 结构 的 参数 。 

一 个 简单 的 例子 在 图 14-1 中 给 出 ， 它 对 下 雨 (R) 导 致 草地 变 湿 (W) 建 模 。 下 雨 的 可 能 
性 为 40%， 并且 下 雨 时 草地 变 湿 的 可 能 性 为 90% ， 也 许 10% 的 时 间 雨 下 得 不 长 ， 不 足以 
让 我 们 认为 草地 被 淋 湿 。 在 这 个 例子 中 ， 随 机 变量 都 是 二 元 的 ， 它 们 或 者 为 真 或 者 为 假 。 
存在 20%% 的 可 能 性 草地 变 湿 而 实际 上 并 没有 下 雨 ， 例 如 ， 使 用 喷 水 器 时 。 

我 们 看 到 这 三 个 值 就 可 以 完全 指定 联合 分 布 POR, WO, WR PCR) 王 0.4， 则 已 (一 RD) 二 
0.6, Jesh, P(~W|R)=0.1, 而 PC—-W|—R)—0.8, EX BEER 

P(OR,W) = POR) PCOW |R) 
通过 在 其 父 节点 的 所 有 可 能 取 值 上 求 和 ， 可 以 计算 湿 草 地 的 个 体 (边缘 ) 概 率 : 
P(W) = >)P(R,W) = P(W|R)P(R) + P(W| ~ R)P(~ R) 


=0.9X0.4+0.2X0.6 = 0.48 
如 果 我 们 知道 下 过 雨 ， 则 湿 草 地 的 概率 为 0.9; 如 果 我 们 相信 没有 下 过 雨 ， 则 湿 草 地 
的 概率 低 至 0. 2; 不 知道 是 否 下 过 雨 ， 这 个 概率 是 0. 48 。 


图 14-1 显示 了 一 个 因果 图 (causal graph)， 解 释 草 地 
变 湿 的 主要 原因 是 下 雨 。 贝 叶 斯 规则 允许 我 们 颠倒 因果 关 P(R) -0.4 
系 并 且 做 出 诊断 (diagnosis)。 例 如 ， 已 知 草地 是 湿 的 ， 则 


下 过 雨 的 概率 可 以 如 下 计算 : 
POW |R) PCR) P(W|R) -0.9 
知道 草地 是 湿 的 把 下 雨 的 概率 由 0.4 增加 到 0. 75, ix d 
因为 POW | RDG» m POW | 一 R) 低 。 图 14-1 对 下 雨 是 湿 草 地 原因 建 模 
我 们 通过 添加 节点 和 弧 形 成 图 并 产生 依赖 性 。X 和 了 的 贝 叶 斯 网 络 


是 独立 事件 (independent event), W 
p(X,Y) = PCX) PCY) (14-1) 
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给 定 第 三 个 事件 Z，X 和 Y 是 条件 独立 事件 (conditional independent event), ， 如 果 
P(X. Y |Z) = FOX | ZPY LZ) (14-2) 
这 也 可 以 写成 
PCX |¥ 2 = POX [Z) (14-3) 
在 图 模型 中 ， 并 非 所 有 的 节点 都 是 连接 的 。 实 际 上 ,一 个 节点 一 般 只 连接 少数 其 他 市 
点 。 特 定 的 子 图 蕴含 条 件 独立 性 陈述 ， 并 且 这 些 使 我 们 可 以 将 一 个 复 琳 的 图 分 解 成 较 小 的 
子 集 ， 其 中 推断 可 以 局 部 地 做 出 ， 并 且 其 结果 稍 后 在 图 上 传播 。 有 三 种 典型 情况 ， 并 且 可 
以 使 用 它们 作为 子 图 来 构造 较 大 的 图 。 


14.2 条 件 独 立 的 典型 情况 


1. 情况 1: 头 到 尾 连 接 (head-to-tail connection) 

三 个 事件 可 以 顺序 连接 ， 如 图 14-2a 所 示 。 这 里 ， 我 们 看 到 ， 给 定 Y、X 与 2 是 独立 
的 : 知道 Y 就 知道 Z 的 一 切 ; 知道 X 的 状态 并 不 能 为 Z 增加 附加 知识 。 我们 记 作 
P(Z|Y, X)=P(Z\Y). FEY MR (block) FM X FAIZ 的 路 径 ， 或 者 ， 换 句 话 说 ，Y 
4 F (separate) X 和 2Z， 意 指 如果 删 掉 Y， 则 就 不 存在 X 和 2 之 间 的 路 径 。 在 这 种 情况 下 ， 
联合 概率 写作 


P(X,Y,Z) = P(X)P(Y |X)P(Z|Y) (14-4) 
这 样 表示 联合 概率 意味 独立 性 : 
,PQUY2 | POOPO |X)PClY) _ i 
P(Z|XY) = Soy y; PCX)P(Y]X) = P(Z|Y) (14-5) 


典型 地 ，X 是 Y 的 原因 ， 而 Y 是 2 的 原因 。 例 如 ， 如 图 14-2b 所 示 ，X 可 以 是 多 云 
(C), YY 可 以 是 下 雨 (R), 而 Z 可 以 是 湿 草 地 (W)。 我 们 可 以 沿 着 链 传播 信息 。 如 果 我 们 
不 知道 多 云 状态 ， 则 我 们 有 

P(R) = P(R|C)P(C) + P(R| ~ O P(~ C) = 0. 38 
P(W) = P(W|R)P(R) + PO | ~ R)P(~ R) = 0. 48 

假设 早上 我 们 看 到 天 气 是 多 云 。 关 于 草地 湿 的 概率 我 们 能 够 说 什么 ? 为 此 ， 我 们 需要 
先 将 证 据 传 播 到 中 间 节 点 下 雨 ， 然 后 传播 到 询问 节点 湿 草地 。 

P(W |C) = P(W|R)PC(R|C) + P(W| ~ R)PC— R|C) = 0. 76 


COCO 


a) 模型 
| P(R|C) -0.8 P(W|C) -0.9 
P(C) -04 P(R|-C) =0.1 P(W|-C) =0.2 
c» 
b) 例子 


图 14-2 头 到 尾 连接 。a) 三 个 节点 顺序 连接 。 给 定 中 间 节 点 Y、X 和 2Z 是 独立 的 ; POZ|Y. X)= 
P(Z|Y)。b) 例子 : 天 气 多 云 导 致 下 雨 ， 而 下 雨 又 导致 湿 草 地 


知道 天 气 多 云 提高 了 湿 草地 的 概率 。 我 们 还 可 以 使 用 贝 叶 斯 规则 回 后 传播 证 据 。 假 设 
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我 们 旅游 归来 ， 看 到 草地 是 湿 的 ， 那 天 多 云 的 概率 是 多 少 ? 使 用 贝 叶 斯 规则 逆转 方向 : 


_ PCWI|C)PCC) 
P(C|W) = — PQY€3 


知道 草地 是 湿 的 将 天 气 多 云 的 概率 从 它 的 默认 ( 先 验 ) 值 0. 4 提高 到 0. 65, 
2. 情况 2: 尾 到 尾 连 接 (tail-to-tail connection) 
X 可 能 是 两 个 节点 Y 和 2 的 父 节 点 ， 如 图 14-3a 所 示 。 联 合 密 度 可 以 写作 
PEX- Y 2) — PCXXPCY [XO PCZ| X) (14-6) 
通常 ，Y MZ 是 通过 X 依赖 的 。 给 定 X， 它 们 变 成 独立 的 : 


PCY ,Z|X) = P(X,Y,Z) 一 P(X) PCY |X) P(Z|X) = P(Y|X)P(Z|X) (14-7) 


M OX 的 值 已 知 时 ， 它 阻塞 了 Y 和 2 之 间 的 路 径 ， 或 者 换言之 ，X 分 开 了 它们 。 

在 图 14-3b 中 ,我 们 看 到 一 个 例子 ， 那 里 多 云 (C) 天 气 影响 下 雨 (R) 和 使 用 喷 水 器 
(S) ， 一 个 影响 是 正 的 而 另 一 个 是 负 的 。 例 如 ， 知 道 下 雨 ， 我 们 可 以 使 用 贝 叶 斯 规则 逆转 
依赖 性 ， 并 推断 原因 : 


P(C|R) 


= 0. 65 


_P(RIC)P(C) _ PCRIC)PCC) 
PCR) Y PG,.O 
: 


n PQJOPRO ——— 0 
P(R|C)P(C) + POR | ~ CO)PC— C) 


注意 ， 这 个 值 大 于 P(C)， 知 道 下 雨 提高 了 天 气 多 云 的 概率 。 
在 图 14-3a 中 ， 例 如 ， 如 果 X 未 知 但 知道 Y， 则 可 以 推断 X， 然 后 使 用 它 推断 Z。 在 
图 14-3b 中 ， 知 道 喷 水 器 的 状态 对 下 十 的 概率 有 影响 。 如 果 我 们 知道 喷 水 器 正在 工作 ， 则 
PERIS) = > P(R,C|S) = P(R|C)P(C|S) + P(R| ~ C)P(~ C|S) 


0. 89 (14-8) 


P(S|~ C)P(~ C) 
P(S) 
=, 22 (14-9) 
这 小 于 PCR)=0.45。 即 知道 喷 水 器 正在 工作 降低 了 下 十 的 概率 ， 因 为 喷 水 和 下 两 发 
生 在 多 云天 气 的 不 同 状态 。 如 果 知 道 喷 水 器 未 工作 ， 则 我 们 发 现 PCR|~S)=0.55, iX 
时 ， 下 雨 的 概率 提高 。 


=p(RIC) Bis PCO 


+ P(R|~ C) 


P(C) -0.5 







P(S|C) 20.1 
P(S|-C) =0.5 


P(R|C) =0.8 
P(R|-C) -0.1 


a) 模型 b) 例子 


14-3 ” 尾 到 尾 连 接 。X 是 两 个 节点 Y 和 2 的 父 节 点 。 给 定 父 节点 ， 两 个 子 节点 
是 独立 的 : PY|X, D=PY |X)。 在 这 个 例子 中 ， 多 云天 气 导致 下 
雨 ， 也 使 得 我 们 使 用 喷 水 器 的 可 能 性 更 小 
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3. 情况 3: 头 到 头 连接 (head-to-head connection) 

在 头 到 头 连 接 中 ， 有 了 两 个 父 节 点 X 和 Y 连接 到 单个 节点 Z， 如 图 14-4a 所 示 。 联 合 密 
度 记 作 

PCX¥ 32) = PODPOOPUL [X Y) (14-10) 

X d Y 是 独立 的 : P(X, YY=PC(X) * PCY) (JM2), 4M Z 时 ， 它们 变 成 依赖 
的 。 对 于 这 种 情况 ， 阻 塞 或 分 开 的 概念 不 同 。 当 观察 不 到 2Z 时 ，X MY Z le) AY Pi tee BK EH 
或 它们 是 分 开 的 ; 当 Z( 或 者 它 的 任意 后 代 ) 被 观测 到 时 ， 它 们 不 再 是 被 阻塞 的 、 分 离 
也 不 是 独立 的 。 
例如 ， 在 图 14-4b 中 ,我 们 看 到 节点 湿 草 地 CW) 有 两 个 父 节 点 下 雨 (R) 和 喷 水 器 (S)， 
因此 它 的 概率 是 这 两 个 值 上 的 条 件 概率 PCW IR, S). 


P(S)=0.2 P(R) -0.4 


din 






P(W|R,S) -0.95 
P(W\R,~S) -0.90 
P(W|-R,S) =0.90 
P(W|-R,-S) =0.10 


a) 模型 b) 例子 


图 14-4 头 到 头 连接 。 一 个 节点 有 两 个 父 节 点 ， 除 非 给 定 孩 子 ， 和 否则 两 个 父 节点 
是 独立 的 。 例 如 ， 一 个 事件 可 能 有 两 个 独立 的 原因 


不 知道 其 他 事情 ， 草 地 是 湿 的 的 概率 通过 联合 概率 边缘 化 来 计算 
P(W) = > POW RS) 


=P(W|R,S)P(R,S) + P(W|~ R,S)P(~ R,S) 

+P(W|R, ~ S)P(R, ~ S)+P(W|~R, ~ S)P(~ R, ~ S) 
=P(W|R,S)P(R)P(S) + PCW | — R, S) PC— R) PCS) 

T P(W|R, ~ S)P(R)P(~ S) H-PFOV| — R, ~ S)PC— R)PC— S) 
一 0. 52 

现在 ， 假 设 我 们 知道 喷 水 器 开 着 ， 我 们 可 以 检查 它 对 这 个 概率 的 影响 。 这 是 一 个 因果 
(预测 ) 推理 : 
P(W|S) = >)P(W,R|S) 
R 


=P(W|R,S)P(R|S) + PW |~ R,S)P(~ R|S) 
=P(W|R,S)P(R) + PW |  R, S) PC— R) 
=0. 92 , 
我 们 看 到 PCW [SO PCW). WÉ SK ai IE ETE Be ES T NUBE . 
给 定 草地 是 湿 的 ， 我 们 也 可 以 计算 喷 水 器 开 着 的 概率 。 这 是 诊断 推理 。 


_ P(W|S)PCS) 
Pas |p ae 


P(S|W)>P(S), Bi Ali R Hb FE ae AY He ee OK AE AR, MELLRE F 


= 0. 35 
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Hj. Fe, RA 
P(S|R.W) = P(W|R,S)P(S|R) _ P(W|R,S)P(S) _ 


这 个 值 比 P(S|W) 小 。 这 称 作 解释 远离 (explaining away)。 给 定 我 们 已 知 下 过 雨 ， 则 喷 水 
器 导致 湿 草地 的 概率 降低 了 。 已 知 草地 是 湿 的 ， 下 雨 和 喷 水 器 成 为 相互 依赖 的 。 类 似 地 ， 
P(S|~R, W)>P(S|W). RHES POR|WO RI PCR|W, SH, 我们 看 到 类 似 的 情 
况 ( 习 题 3) 。 

我 们 可 以 通过 组 合 这 样 的 子 图 来 构造 更 大 的 图 。 例 如 ， 在 图 14-5 中 ， 我 们 组 合 了 前 
面 的 两 个 子 图 ， 可 以 计算 如 果 多 云 ， 湿 草地 的 概率 : 
P(W|C) = >)P(W,R,S|C) 


=P(W.R,S|C) + PCW, ~ R,S|C) + PW,R, ~ S|C) + P(W, ~R, ~ S|C) 
=P(W|R,S,C)P(R,S|C) + POY | ~ R,S,O P(~ R,S|C) 
+P(W|R, ~ S,OP(QG, ~ S|C) + P(W| ~R, ~ S,O P(~ R, ~ S|C) 
=P(W|R,S)P(R|C)P(S|C) + P(W| ~ R,S)P(~ R|C)P(S|C) 
+ P(W|R, ~ S)P(R|C)P(~ S|C) + P(W| ~R, ~ S)P(~ R|C)P(~ S|C) 
其 中 ,我 们 使 用 了 POWI|R, S, O=PC(WIR, S). 







P(C)=0.5 
AE RMS, W AFC: RA SMESWACZS 
lA PRE. AEH, PCR, S|C)=P(R|C)P(S|C). 
vy P(S|C) -0.1 P(R|C) -0.8 
给 定 C，R 和 S 是 独立 的 。 这 里 ， 我 们 看 到 贝 叶 斯 ewe 0 


网 络 的 优点 : 它 明 确 地 表示 了 独立 性 ， 并 且 使 我 们 
能 够 将 推断 分 解 成 若干 从 证 据 节点 到 查询 节点 传播 
的 小 变量 组 上 的 计算 。 

我 们 可 以 计算 PCCW), HEARKE.: 


_ P(W|C)PCO) 
P(C|W) = — PY) — 


图 形 表 示 是 可 视 化 的 且 有 助 于 理解 。 网 络 提供 
了 条 件 独 立 性 陈述 ， 并 且 允 许 我 们 将 许多 变量 的 联 
合 分 布 问题 分 解 成 局 部 结构 ， 这 简化 了 分 析 和 计算 。 
图 14-5 表示 了 一 个 4 个 二 元 变量 的 联合 密度 ， 它 通 
常 需要 存储 15 个 值 (24 一 1)， 而 这 里 只 有 9 个 。 如 图 14-5 通过 组 合 较 简单 的 子 图 形成 较 
果 每 个 节点 只 有 少量 的 父 节点 ， 则 复杂 度 将 从 指数 A LIU E Nue 
降 到 线性 ( 按 节点 数 )。 正 如 我 们 在 前 面 所 看 到 的 ， 

当 联合 密度 分 解 成 较 小 变量 组 的 条 件 密度 时 ， 推 断 也 会 变 得 更 容易 ， 


P(W|R,S) =0.95 
P(W\R,~S) =0.90 
P(W|-R,S) =0.90 
P(W|-R,-S) =0.10 


P(C,S,R,W) = P(C)P(S|C)P(R|C)P(W|S,R) (14-11) 
在 通常 情况 下 ， 当 有 变量 ays hy XY 有 
d 
P(X, 7X0) = [[ PCX; | parents(X;)) (14-12) 
i=] 


于 是 ， 给 定 X, 的 任意 子 集 ， 即 根据 证 据 赋予 它们 一 定 的 值 ， 则 通过 边缘 化 联合 分 布 ， 
可 以 计算 X, 的 其 他 子 集 的 概率 分 布 。 这 开销 很 大 ， 因 为 它 需 要 计算 指数 多 个 联合 概率 组 
合 ， 即 使 每 个 都 能 像 式 (14-11) 那 样 被 简化 。 然 而 ， 给 定 相 同 的 证 据 ， 对 于 不 同 的 X;， 可 以 
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使 用 相同 的 中 间 值 (条 件 概率 的 乘积 和 边缘 化 的 和 )， 并 且 在 14. 5 节 我 们 将 讨论 信念 传播 
算法 ， 通 过 进行 一 次 可 以 用 于 不 同 的 查询 节点 多 次 的 局 部 中 间 计 算 ， 以 更 小 的 开销 做 
TEE UST 

尽管 在 这 个 例子 中 我 们 使 用 了 二 元 变量 ， 但 是 可 以 将 它 直接 推广 到 具有 任意 多 个 可 能 
值 的 离散 变量 (具有 m PY REAR 个 父 节 点 ， 需 要 大 小 为 m* 的 条 件 概率 表 ) 或 连续 变量 
(参数 化 的 ， 例 如 p(Y x) GG |00. 62, BULA 14-7) 。 

使 用 贝 叶 斯 网 络 的 一 个 主要 优点 是 我 们 不 必 明 确 指定 某 些 变量 作为 输入 ， 某 些 其 他 变 
量 作为 输出 。 任 何 变量 集 的 值 都 能 通过 证 据 建立 ， 而 任何 其 他 变量 集 的 概率 都 可 以 推断 ， 
并 且 非 监督 学 习 和 监督 学 习 之 间 的 区 别 变 得 模糊 不 清 。 从 这 个 角度 看 ， 一 个 图 模型 可 以 看 
作 一 个 “概率 数据 库 ”Jordan 2009) ， 一 个 可 以 回答 关于 随机 变量 值 的 查询 的 机 器 。 

在 一 个 问题 中 ， 还 可 能 存在 隐藏 变量 (hidden variable), ， 它 们 的 值 不 能 通过 证 据 知道 。 
使 用 隐藏 变量 的 优点 是 可 以 更 容易 地 定义 依赖 结构 。 例 如 ， 在 购物 篮 分 析 中 ， 当 我 们 想 找 
出 所 销售 商品 之 间 的 依赖 性 时 ， 比 如 说 我 们 知道 “婴儿 食品 ”、“ 尿 布 " 和 “牛奶 ”之 间 的 依赖 
性 ， 因 为 顾客 购买 其 中 一 种 多 半 可 能 购买 另外 两 种 。 我 们 不 是 将 ( 非 因 果 的 ) 弧 放 在 这 三 者 
之 间 ， 而 可 能 是 指定 一 个 隐藏 节点 “家 有 婴儿 ”作为 这 三 种 商品 消费 的 隐藏 原因 。 当 存在 隐 
藏 节点 时 ， 它 们 的 值 用 观测 节点 的 给 定 值 估 计 并 填写 。 

这 里 需要 强调 一 点 ， 从 市 点 X 到 YY 的 链 不 是 ， 也 不 必 总 是 意味 着 因果 关系 (causality) 。 
它 只 是 意味 着 X 在 Y 上 有 直接 影响 (direct influence), B Y WHEW X 的 值 为 条 件 ， 并 且 即 
使 没有 直接 的 原因 ， 两 个 节点 之 间 仍 可 能 有 一 个 边 。 通 过 提供 关于 数据 如 何 产生 的 解释 ， 在 
构造 网 络 时 有 因果 关系 更 可 取 (Pearl 2000), ， 但 是 这 种 因果 关系 并 非 总 是 能 够 得 到 。 


14.3 生成 模型 


然而 ， 图 形 模型 经 常用 来 观察 表示 创建 数据 过 程 的 生成 模型 (generative model), 。 例 
如 ， 对 于 分 类 ， 对 应 的 图 模型 显示 在 图 14-6a HF, EP x 是 输入 ，C 是 一 个 多 元 变量 ， 取 
类 编码 的 KK 个 状态 之 一 。 仿 佛 我 们 首先 通过 从 P(C) 抽 样 随 机 选择 一 个 类 C， 然 后 固定 C， 
通过 从 p(x1C) 抽 样 选择 x。 正如 我 们 在 图 14-1 的 下 雨 和 湿 草 地 的 例子 中 所 看 到 的 ， 贝 叶 
斯 规则 逆转 生成 方向 并 允许 诊断 : 





_ PCC) p(x|C) 
PIC |e} = Gy S 
P(C) 
p(x|C) 
a) 用 于 分 类 的 图 模型 b) 朴素 贝 叶 斯 分 类 器 假定 输入 是 独立 的 


图 14-6 


注意 ， 聚 类 是 类 似 的 ， 不 同 之 处 是 取代 类 指示 变量 C， 我 们 有 得 指示 变量 Z， 并 且 它 在 训 
练 时 是 不 可 观察 的 。 期 望 最 大 化 算法 (7.4 节 ) 的 正 步 使 用 贝 叶 斯 规则 逆转 弧 的 方向 并 填 人 


给 定 输入 的 簇 指示 符 。 

如 果 输 入 的 是 独立 的 ， 则 有 图 14-6b 所 示 的 图 形 ， 它 称 作 朴素 贝 叶 斯 分 类 器 Cnaive 
Bayes”classifier)， 因 为 它 忽 略 了 答 人 之 间 的 可 能 的 依 顿 性 ( 即 相关 性 )， 将 一 个 多 变量 问 
题 归 约 为 一 组 单 变量 问题 s 


d 
p(x|C) = 1l sc. IC) 


Æ 5.5 WAS. 7 m, 我 们 已 经 分 别 对 数值 的 和 离散 的 x 讨论 过 这 种 情况 的 分 类 ，。 

线性 回归 可 以 看 作 一 个 图 模型 ， 如 图 14-7 p(wla) 
所 示 。 输 入 x 从 先 验 p(x) 中 抽取 ， 因 变量 
依赖 于 输入 x 和 权重 w。 这 里 ,我们 为 具有 
被 a 参数 化 的 先 验 权重 w( 即 p(w)~ 
NO, a 了) 定义 一 个 节点 。 对 于 被 8 参数 
化 的 噪声 s 变量 ( 即 ple)~ NC CO, B DD, 也 
4 —^4 9 Zu: 

pC |x',w) — N Cwr 8 1) (14-13) 

WAR PAN 个 这 样 的 对 ， 显 示 在 图 中 
的 矩形 板 (plate) 中 一 一 板 对 应 于 训练 集 X。 
给 定 一 个 新 的 输入 x ， 目 标 是 估计 x。 权 重 
w 未 给 出 ,但 可 以 使 用 XxX 的 训练 集 [x，rj 估 
TEM. 

714-9), CHRAS 的 原因 ， 我 
们 记 


图 14-7 线性 回归 的 图 模型 


PCR|S) = 2,PQ, C|S) = P(R|C)P(C|S) + P(R| — C)P(~ C|S) 
用 观测 的 S 填补 C 并 在 所 有 可 能 的 C 值 上 取 平 均 。 类 似 地 ， 这 里 有 
pO! |x' ,r,X) =| por \x’,w) p(w |X rdw 


- p(r|X,w) p(w) 
[pcr | x sw) ptr dw 


oc] per! |x! w) [pC |x", w) p Cu) dw (14-14) 


其 中 ， 第 二 行 根 据 贝 叶 斯 规则 ， 而 第 三 行 根 据 训 练 集 中 实例 的 独立 性 。 

注意 ， 图 14-7 是 一 个 贝 叶 斯 模型 ， 其 中 指明 参数 w 是 一 个 具有 先 验 分 布 的 随机 变量 。 
正如 我 们 在 式 (14-14) 中 所 看 到 的 ， 我 们 实际 上 做 的 是 估计 后 验 p(w| 关 ，r)， 然 后 将 它 积 
分 。 我 们 在 4. 4 节 开 始 讨论 这 一 问题 ， 并 将 在 第 16 章 对 不 同 的 生成 模型 和 不 同 的 参数 集 
更 详细 地 进行 讨论 。 


14.4 dE 


ME, RH d 4r P$ Cd-separation) 推广 阻塞 和 分 开 的 概念 ， 并 用 这 样 的 方式 定义 
它 ， 使 得 对 于 节点 的 任意 子 集 A、 刀 和 C， 可 以 检查 给 定 C、A 和 如 是否 是 独立 的 。Jor- 
dan(2009) 将 这 想象 成 一 个 球 在 图 上 跳动 ， 并 称 之 为 贝 叶 斯 球 (bayes”ball)。 我 们 将 C 中 
的 节点 设置 为 它们 的 值 ， 在 A 中 的 每 个 节点 上 放置 一 个 球 ， 让 这 些 球 按照 一 组 规则 四 处 
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移动 ， 并 检查 是 否 有 一 个 球 到 达 B 中 的 某 个 节点 。 如 果 是 ， 则 它们 是 依赖 的 ， 否 则 ， 它 
们 是 独立 的 。 
为 了 检查 给 定 C、A RIB 是 否 是 4 分 (4) (e 
离 的 ， 我 们 考虑 A 中 任意 节点 与 B 中 任 
意 节 点 之 间 的 所 有 可 能 的 路 径 。 任 意 一 条 


这 样 的 路 径 是 阻塞 的 (blocked)， 如 果 (a) © 
a) 路 径 上 边 的 方向 或 者 满足 头 到 尾 

(情况 1) ， 或 者 满足 尾 到 尾 ( 情 况 2)， 并 

且 该 节点 在 C 中 。 或 者 o 
b) 路 径 上 边 的 方向 满足 头 到 头 ( 情 况 


3)， 并 且 无 论 该 节点 还 是 它 的 任意 后 代 都 G 
不 在 C 中 。 
如 果 所 有 的 路 径 都 是 阻塞 的 ， 则 我 们 o 


说 A 和 B 是 4d 分 离 的 ， 即 给 定 C 它们 是 ae we md -— 
ce. 1, ee - diis € 14-8 d 例子 。 给 定 C， 路 径 BCDF 
独立 的 ; 否则 ， 它 们 是 依赖 的 。 个 例子 ee BERS AM 
在 图 14-8 中 。 F 阻 塞 的 ， 因 为 下 是 一 个 头 到 尾 节点 。BE- 
FD 是 阻塞 的 ， 除 非 给 定 FOX G) 
14.5 信念 传播 


我 们 已 经 讨论 了 一 些 手工 推断 的 例子 。 现 在 ， 我们 感 兴 趣 的 是 可 以 回答 诸如 PCX |E) 
这 种 查询 的 算法 ， 其 中 X 是 图 中 的 任意 查询 节点 (query node)， 而 五 是 其 值 已 设置 为 确定 
值 的 证 据 节 点 (evidence node) 的 任意 子 集 。 按 照 Pearl(1988) 的 做 法 ， 我 们 从 链 这 种 最 简 
单 的 情况 开始 ,逐渐 考 虑 更 复杂 的 图 。 我 们 的 目标 是 找到 诸如 贝 叶 斯 规则 或 边缘 化 这 样 的 
概率 过 程 的 对 应 图 操作 ， 使 推断 任务 可 以 映射 到 通用 的 图 算法 。 


14.5.1 链 


链 (chain) 是 头 到 尾 节 点 的 序列 ， 有 一 个 没有 父 节 点 的 根 (root) 节 点 ， 其 他 所 有 节点 
都 惟有 一 个 父 节点 。 除 了 最 后 一 个 称 作 叶子 (leaf) 的 节点 外 ， 其 他 所 有 节点 都 有 一 个 子 
节点 。 如 果 证 据 在 X 的 祖先 中 ， 则 我 们 只 能 做 诊断 推断 ， 并 沿 着 链 向 下 传播 证 据 ; 如 
果 证 据 在 XX 的 后 代 中 ， 则 我 们 可 以 使 用 贝 叶 斯 规则 做 因果 推断 并 向 上 传播 。 让 我 们 看 
看 通用 的 情况 。 我 们 在 两 个 方向 上 都 有 证 据 ， 上 链 ET MR HEE (参见 图 14-9) 。 注 意 ， 
任何 证 据 节 点 都 将 X 与 链 上 证 据 另 一 侧 的 节点 分 开 ， 并 且 它 们 的 值 不 影响 p(X)。 这 对 
两 个 方 回 都 成 立 。 





图 14.9 沿 链 推断 


我 们 把 每 个 节点 都 看 作 一 个 处 理 器 ， 它 从 它 的 邻居 接收 消息 并 在 局 部 计算 后 沿 着 链 传 
递 。 每 个 节点 X 都 局 部 地 计算 并 存储 两 个 值 : ACXO=PCE |X) 是 传播 的 E ，X MEN 
子 节点 接收 并 传 给 它 的 父 节 点 ; 而 x(X) 夺 P(ET |X) 是 传播 的 下 ，X 从 它 的 父 节 点 接收 
并 传 给 它 的 子 节点 。 对 于 某 个 不 依赖 于 X 值 的 规范 化 的 常量 a， 
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P(E|X)P(X) _ PCE*,E | X)P(X) 
PE) PCE) 


_ PCE* JOFCE- | OPCX) 
PŒ) 


_ PCX|E*) PE") PCE | X) PCX) 
P(X) PCE) 


=oP(X|E*)P(E | X) = ax OOACX) (14-15) 
BITTERE X, EME 是 独立 的 ， 而 第 三 行 是 根据 贝 叶 斯 规则 。 

如 果 节 点 五 实例 化 为 确定 的 值 ， 则 ACOS A Ale, esce, RAKM LMM T 
节点 对 所 有 的 工 值 有 (GZz) 反 1。 没 有 实例 化 的 根 节点 X 取 先 验 概率 作为 x 值 : 对 于 任意 
Es tal=P tz), 

给 定 这 些 初 始 条 件 ， 可 以 设计 一 个 沿 着 链 传播 证 据 的 递归 公式 。 

Mri. A 

n(X) &P(X|E*) = >) P(X|U,E*)PWU|E*) 


P(X |E) = 


= >) P(X|U)PCU|E*) = 3) P(X|U) x) (14-16) 
U U 


其 中 ， 第 二 行 基于 可 阻塞 X 与 E* 之 间 的 路 径 这 一 事实 。 
对 于 4 消息， 有 
ACX) =P(E |X) = P(E |X,Y)P(Y|X) 


— PCE (YIPO |X) = 5 PO IXIAR) (14-17) 
Y Y 


其 中 ， 第 二 行 基于 了 阻塞 X 5E 之 间 的 路 径 这 一 事实 。 

当 证 据 节 点 的 值 被 设置 时 ， 它 们 局 动 传 播 ， 并 且 节 点 持续 更 新 直至 收敛 。Pearl(1988 ) 
将 这 看 作 一 台 并 行 机 需 ， 其 中 每 个 节点 用 一 个 处 理 需 实现 ， 每 个 处 理 器 都 与 其 他 处 理 器 并 
行 ， 通 过 消息 和 4 消息 与 它 的 父 节 点 和 子 节点 交换 信息 。 


14.5.2 树 


链 是 受 限 的 ， 因 为 每 个 节点 只 能 有 一 个 
父 节点 和 一 个 子 节点 ， 即 单个 原因 和 单个 症 
状 。 在 树 中 ， 每 个 节点 都 可 以 有 多 个 孩子 ， 
但 是 除了 单个 根 外 ， 所 有 的 节点 都 恰 有 一 个 
父 节 点 。 相 同 的 信念 传播 也 可 以 在 树 上 进行 ， 
与 链 的 不 同 之 处 是 ; 节点 由 它 的 各 个 孩子 接 
收 不 同 的 4 消息， 并 且 问 它 的 各 个 孩子 发 送 
AI «JHB. Ay ( X) Rm X 从 它 的 孩子 Y 
接收 的 消息 ，xy (XR X 发送 到 它 的 孩子 
Y 的 消息 。 

我 们 还 是 将 可 能 的 证 据 划 分 成 两 部 分 : 
E 是 以 查询 节点 X 为 根 的 子 树 中 的 证 据 节 
点 ,而 EY 是 其 他 证 据 节 点 (参见 图 14-10)。 图 1410 app, 一 个 节点 可 能 有 多 个 孩子 ， 
注意 ， 天 中 的 节点 不 必 是 X 的 祖先 ， 而 可 以 但 只 有 一 个 父 节 点 
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在 以 X 的 兄弟 节点 为 根 的 子 树 中 。 重 要 的 是 ，X JE T E^ 和 巨 ,使 我 们 可 以 有 
P(E*, E | O—- PCE*| SOPCE | XO, Ama 
P(X|E) = ax OOACX) 

其 中 ，c 是 一 个 规范 化 常量 。 

A(X) 是 以 X 为 根 的 子 树 中 的 证 据 ， 并 且 如 图 14-10 所 示 ， 如 果 X 有 两 个 孩子 Y AZ. 
则 它 用 下 式 计算 : 

MCX) =PCEP |X) = PCGg,Ez|X) 
= P(E, |S PCE |X) 32.001000 (14-18) 
在 一 般 情况 下 ， 如 果 X 有 PERF Y;G-—l e m), WHET MATA A 值 相 乘 : 


A(X) = [J ay, CÓ (14-19) 
j=l 


—H X 从 它 的 孩子 的 消息 中 收集 了 4 证 据 ， 它 就 将 这 些 证 据 上 传 给 它 的 父 节点 : 
AxQU) = RD (14-20) 
X 


类 似 地 ， 在 另 一 个 方向 ，r(X) 是 收集 在 PUJE) PAPE zc 消息 传播 到 X 的 其 他 地 
方 的 证 据 ; 
n(X) = P(X|EX) = X P(X|U)PU|EX) = SIP(X|W ax) — (14-21) 


然后 ， 这 个 计算 的 x 值 向 下 传播 到 X 的 孩子 。 注 意 , Y AX 接收 的 是 XX KEWL 
A U 和 它 的 其 他 孩子 2 接收 的 ; 它们 一 起 组 成 Ey (参见 图 14-12) : 
zy CX) =P(X|E¥) = P(X|EX,Ez) 
_P(Ez|X,Et)P(X|IE#) _ PCEz|X)P(X|Ex) 
P(Ez) P(Ez) 
=z (X)x(X) (14-22) 
同样 ， 如 果 Y 不 止 Z 一 个 兄弟 ， 而 是 有 多 
个 ， 则 需要 取 它 们 所 有 的 * 值 的 乘积 : 
zy (X) =a [[àv, (X)a(X) (14-23) 


14.5.3 多 树 


在 树 中 ， 节 点 有 单个 父 节 点 ， 即 单个 原因 。 
在 多 树 (polytree) 中， 一 个 节点 可 以 有 多 个 父 节 
点 ， 但 是 我 们 要 求 图 是 单 连接 的 ， 这 意味 任意 两 
个 节点 之 间 只 有 一 条 链 。 如 果 我 们 删除 X， 则 图 
就 被 划分 成 两 个 分 支 。 这 是 必要 的 ， 使 我 们 可 以 
继续 将 Ex 划分 成 Ex 和 Ex ， 给 定 X， 则 它们 是 





独立 的 (参见 图 14-11). | 图 14-11 在 多 树 中 ， 一 个 节点 可 以 有 多 个 
如 果 X 有 多 个 父 节 点 UiG 一 1，…，A&)， 则 子 节点 和 多 个 父 节点 ， 但 是 图 是 

它 从 所 有 父 节点 接收 x 消息 xx (Ui)， 按 如 下 方 PE A U Seer a 
Ar 一 条 经 过 X 的 链 

法 组 合 它 们 : 


mR SPIER — PUX Bigs Eb ga Eh) 
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= >) Dy: D POX U U2 U.P, | Ej 27 PQU, | Eó x) 
U, U, 


k 
JP JC GP ER Df E? pec (14-24) 
Ul U, i=] 
并 将 它 传递 给 多 个 孩子 Y gel, — Üà- m): 
zy (X) = «| ay, (X)x(X) (14-25) 


E X RB T AC BUT DO, x 传递 到 它 的 一 个 父 节 点 UD; 的 4 消息 不 仅 组 合 了 XX 
从 它 的 孩子 接收 的 证 据 ， 而 且 还 有 X 从 它 的 其 他 父 节 点 U, rA r 消息。 它们 一 
起 构成 Ev x : 

Ax CU.) =P(Eyx |X) 


= = 21 QP (Ex Eb x XU. |U) 

— - XXe. Po x|X; UU) P(X ,Ui |U) 

- y Y'PGs OPE. Uad POX Ua VIP Oe |UD 
X U +i 


POL [Et x)P(ES x) 
= SP(Ex|X) Dr VEG, x) POO) ey iy LUPA, |U) 
Ta P(U,,.) 


= B2», 2, P (Ex | X) PU, |Eb x) PCX |U 4: U2) 
x JU. 


d 82, po passi sre, PON UR 


= FZ POLE Uy) [xx cuo (14-26) 
与 树 一 样 ， 为 了 找 出 它 的 总 A. AU BUE MUERTE A 消息 的 乘积 ， 
A(X) = IERES (14-27) 


在 这 种 多 个 父 节 点 的 情况 下 ， 我们 需要 存储 和 处 理 给 定 所 有 父 节 点 的 条 件 概率 
p(XIU,，…，U)。 对 于 大 的 有 &， 这 个 开销 很 大 。 已 经 提出 了 一 些 方法 将 复杂 度 从 上 & 的 指 
数 降 低 到 线性 。 例 如 ， 在 噪声 或 门 (noisy OR gate) 中 ， 当 多 个 父 事件 出 现时 ， 任 意 父 节点 
都 足以 导致 该 事件 且 似 然 不 减少 。 如 果 在 仅 有 一 个 原因 出 现时 X 发 生 的 概率 是 1 一 g; 


POX |U;, =U; = 1—4:; (14-28) 
则 当 它 们 的 一 个 子 集 THA, X 发 生 的 概率 用 下 式 计算 : 
P(X|T) = 1-— []a: (14-29) 
u. €T 


例如 ， 假 设 湿 草 地 有 两 个 原因 ， 下 雨 和 使 用 喷 淋 器 ， 其 概率 为 gx 二 gs 二 0. 1。 即 二 者 
都 有 90% 的 可 能 性 导致 湿 草 地 。 于 是 ,PC(W|R,， ~S)=0.9, POY|R, S)—0.99, 
另 一 种 可 能 是 ， 给 定 参数 集 ， 将 该 条 件 概率 写成 某 个 函数 ， 例 如 一 个 线性 模型 


P(X | U, Ko ;U, * Wy s WI see 4700, ) = sigmoid ( Sati, + wr ) (14-30) 
i=] 


rh, sigmoid 确保 输出 是 0~1 之 间 的 概率 。 例 如 ， 在 训练 阶段 ， 我们 可 以 学 习 参 数 w 
(i 二 1]，…，d)， 最 大 化 样本 上 的 似 然 。 
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14.5.4 it 


如 果 有 环 ， 即 如 果 基 本 无 向 图 有 环 ( 例 如 ， 如 果 X 的 父母 有 共同 的 祖先 )， 则 我 们 先 
前 讨论 的 算法 就 不 能 运行 。 在 这 种 情况 下 ， 存 在 多 条 传播 证 据 的 路 径 ， 在 计算 X 上 的 概 
率 时 ， 我 们 不 能 说 和 GLE 分 开 成 Ex 和 Ex， 分 别 作 为 原因 (向 上 ) 和 诊断 (向 下 ) 证 据 ; JN 
ER X 不 会 把 图 一 分 为 二 。 以 X 为 条 件 不 
会 使 它们 独立 ， 而 它们 两 个 可 能 通过 不 (C) (6) 
涉及 X 的 其 他 路 径 相 互 影 响 。 

如 果 可 以 将 该 图 转换 成 多 树 ， 则 仍 (a) o (rs) 

然 可 以 使 用 同样 的 算法 。 我 们 定义 团 节 

(clique nodes) 对 应 于 原始 变量 的 一 个 

子 集 ， 并 且 连 接 它 们 使 得 它们 形成 一 棵 Oo OQ 

树 ( 见 图 14-12), FÆ, Mesa) 一 个 多 连接 图 b) 它 的 节点 被 聚 类 为 对 应 的 结 树 
动 运行 同样 的 信念 传播 算法 。 这 就 是 结 

树 算 法 (junction tree algorithm) 的 基本 

思想 (Lauritzen 和 Spiegehalter 1988; Jensen 1996; Jordan 2004), 


14.6 无 向 图 : 马尔 科 夫 随机 场 


迄今 为 止 ， 我 们 讨论 了 有 向 图 ， 其 中 影响 是 无 向 的 ， 并 且 我 们 使 用 贝 叶 斯 规则 来 逆转 
弧 的 方 辐 。 如 果 影 响 是 对 称 的 ， 则 我 们 使 用 无 向 图 模型 来 表示 它们 ， 这 种 模型 也 称 作 马尔 
科 夫 随机 场 (Markov random field), 。 例 如 ， 图 像 中 的 邻近 像素 趋向 于 具有 相同 的 颜色 ( 即 
相关 的 )， 并 且 相 关 性 没 着 两 个 方向 。 

有 问 和 无 向 图 以 不 同 的 方式 定义 条 件 独立 性 ， 因 而 存在 被 有 问 图 表示 但 不 被 无 向 图 表 
示 的 概率 分 布 ， 反 之 亦 然 (Pearl 1988) 。 

由 于 没有 方 回 ， 所 以 没有 弧 的 头 尾 之 分 ， 因 此 无 问 图 的 处 理 更 简单 。 例 如 ， 给 定 C, 
检查 A 和 B 是 否 独 立 更 加 简单 。 我 们 只 需要 检查 如 果 删 除 C 中 的 所 有 节点 ， 我们 是 否 还 
有 一 条 从 A 中 的 一 个 节点 到 B 中 的 一 个 节点 的 路 径 。 如 果 有 ， 则 它们 是 依赖 的 。 否 则 ， 
如 果 A 中 节点 与 B 中 节点 之 间 的 所 有 路 径 都 经 由 C 中 的 节点 ， 使 得 C 的 删除 导致 A 中 的 
节点 和 B 中 的 节点 在 不 同 的 分 支 中 ， 则 我 们 有 独立 性 。 

在 无 向 图 的 情况 下 ， 我 们 不 提 父 节点 或 子 节 点 ， 而 是 谈论 团 (clique)。 团 是 节点 的 集合 ， 
使 得 该 集合 中 的 任意 两 个 节点 之 间 都 存在 一 条 边 。 极 大 团 (maximal clique) 是 元 素数 取 极 大 的 
团 。 取 代 条 件 概 率 ( 旨 指 方向 )， 在 无 各 图 中 ,我 们 有 势 函 数 (potential function)YVc(Xc)， 其 
中 Xc 是 团 C 中 变量 的 集合 ， 并 且 我 们 定义 联合 分 布 为 图 中 极 大 团 的 势 函 数 的 乘积 ; 


p(X) = 7 [[v««xo (14-31) 
其 中 Z 是 正则 化 常数 ,确保 D>) pOO = 1: 
X 
Z= M T[wveoo (14-32) 
X C 


可 以 证 明 ， 有 向 图 已 经 是 正则 化 的 (习题 5) 。 
与 有 向 图 不 同 ， 无 向 图 中 的 势 函数 不 必 有 概率 解释 ， 并 且 在 定义 它们 时 可 以 有 更 大 的 
自由 度 。 一 般 地 ， 我 们 可 以 把 势 函数 看 作 表 示 局 部 约束 ， 即 偏爱 某 种 局 部 配置 而 不 是 其 他 


局 部 配置 。 例 如 ， 在 图 像 中 ， 我 们 可 以 定义 邻近 像素 之 间 的 两 两 势 函 数 ， 它 们 的 颜色 相似 
时 的 取 值 比 颜色 不 同时 的 取 值 更 大 (Bishop 2006)。 于 是 ， 设 置 某 些 像 素 的 值 作为 证 据 ， 我 
们 可 以 估计 其 他 未 知 像素 的 值 ， 例 如 ， 基 于 咬合 (occlusion) 。 

如 果 我 们 有 有 向 图 ， 则 很 容易 简单 地 通过 丢弃 所 有 方向 将 它 重 新 绘制 成 无 向 图 ， 并 且 
如 果 一 个 节点 只 有 一 个 父 节 点 ， 则 我 们 可 以 简单 地 令 两 两 势 消 数 为 条 件 概率 。 然 而 ， 如 果 
一 个 节点 有 多 个 父 节 点 ， 则 由 于 头 到 头 节点 的 “解释 远离 ?现象 使 得 这 些 父 节点 是 依赖 的 ， 
所 以 我 们 应 该 将 这 些 父 节点 放 在 相同 的 团 中 ， 使 得 该 团 的 势 包 含 所 有 的 父 节 点 。 这 通过 如 
下 方法 来 实现 : 用 链 连接 节点 的 所 有 父 节 点 ， 使 它们 之 间 完 全 连接 并 形成 一 个 团 。 这 称 作 
“ 嫁 陷 ”(marrying) 父 节点 ， 而 这 一 过 程 称 作 教化 (moralization)。 顺 便 说 一 下 ， 教 化 是 产生 
无 回 结 树 的 步骤 之 一 。 

将 信念 传播 算法 用 于 无 各 图 是 直截了当 的 ， 并 且 更 容易 ， 因 为 势 阻 数 是 对 称 的 ， 并 且 
不 需要 区 分 因果 证 据 和 诊断 证 据 。 这 样 ， 我 们 可 以 在 无 向 链 和 无 向 树 上 做 推断 。 但 是 在 节 
点 具有 多 个 父 节 点 的 多 树 中 ， 教 化 必然 导致 环 ， 因 此 这 种 方法 不 行 。 一 个 技巧 是 将 其 转换 
成 因子 图 (factor graph)。 除 了 变量 节点 之 外 ， 因 子 图 使 用 第 二 种 类 型 的 因子 节点 (factor 
node) 。 我 们 将 联合 分 布 表示 成 因子 的 乘积 (人 Kschischang，Frey 和 Loeliger 2001): 


p(X) = 7 [fs X9) (14-33) 
S 


其 中 ，Xs 代 表 被 因子 S 使 用 的 变量 节点 的 子 集 。 有 加 图 是 一 种 特例 ， 其 中 因子 对 应 于 局 
部 条 件 分 布 ; 无 向 图 是 男 一 个 特例 ， 其 中 因子 是 极 大 团 上 的 势 函 数 。 正 如 我 们 在 图 14-13 
中 所 看 到 的 ， 这 样 做 的 优点 是 教化 后 仍然 能 够 保持 树 结构 。 

可 以 将 信念 传播 算法 推广 到 因子 图 ， 这 
称 作 和 一 积 算 法 (sum-product algorithm ) 
(Bishop 2006; Jordan 2009)。 该 算法 具有 
同样 的 思想 : 做 一 次 局 部 计算 ， 并 作为 消息 
通过 图 来 传播 它们 。 不 同 的 是 ， 这 里 有 两 类 (0) (s) 
消息 ， 因 为 有 因子 和 变量 两 类 节点 ， 而 我 们 
要 区 分 它们 的 消息 。 注 意 ， 因 子 图 是 一 个 二 
WE, 一 类 市 点 只 能 与 男 一 类 节点 直接 o 
连接 。 


在 信念 传播 或 者 在 和 - 积 算法 中 ， 给 定 a) b) 
固定 为 某 个 特定 值 的 证 据 节点 的 集合 已 ， 目 图 1413 o 一 个 有 回 图 ,教化 后 它 将 有 一 个 


个 因子 是 f.(R)=PC(R), f,(S)= 


EJ, 在 某 些 应 用 中 ， 我 们 感 兴 趣 的 可 能 是 P(S) 和 f.(R, S, W)=P(W|R, S) 


找 出 最 大 化 联合 概率 分 布 p(X) 的 所 有 X 的 
设置 。 例 如 ， 在 势 函 数 对 局 部 一 致 性 编码 的 无 回 的 情况 下 ， 这 种 方法 将 在 整个 图 上 传播 局 
部 一 致 性 ， 并 找 出 最 大 化 全 局 一 致 性 的 解 。 在 节点 对 应 于 像素 且 两 两 势 图 数 文 持 相 关 性 的 
图 中 ， 这 种 方法 将 实现 噪声 删除 (Bishop 2006)。 做 这 件 事 的 算法 称 作 最 大 积 算 法 (max- 
product algorithm) (Bishop 2006; Jordan 2004)， 它 与 和 - 积 算法 一 样 ， 但 是 它 取 最 大 值 
(最 可 能 的 值 )， 而 不 是 取 和 (边缘 化 ) 。 这 类 似 于 我 们 将 在 第 15 章 讨论 的 隐 马 尔 科 夫 模 型 
的 向 前 - 回 后 算法 与 Viterbi 算法 之 间 的 区 别 。 

注意 ， 节 点 不 必 对 应 于 诸如 像素 这 样 的 低层 概念 。 例 如 ， 在 视频 应 用 中 ， 我 们 可 以 有 和 针对 
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同 解释 的 一 部 分 (例如 ， 回 忆 Necher 立方 体 )， 使 得 总 体 相 容 的 解 在 组 合 局 部 证 据 之 后 显现 。 

推断 算法 在 多 树 或 结 树 上 的 复杂 度 由 父 届 点 的 最 大 个 数 或 最 大 团 的 大 小 决定 。 当 这 些 
很 大 时 ， 严格 推断 是 不 可 行 的 。 在 这 种 情况 下 ， 我 们 需要 使 用 近似 或 抽样 算法 (Jordan 
1999; Bishop 2006), 


14.7 学 习 图 模型 的 结构 


与 任何 学 习 方法 一 样 ， 学 习 图 模型 有 两 部 分 工作 。 第 一 部 分 是 给 定 结 构 来 学 习 参 数 。 
这 相对 容易 (Buntine 1996) ， 并 且 在 图 模型 中 ， 可 以 训练 条 件 概率 表 或 它们 的 参数 设置 (如 
式 (14-30) 中 的 参数 ) ， 以 便 最 大 化 似 然 ， 或 者 ， 如 果 已 知 适 当 的 先 验 ， 可 以 使 用 贝 叶 斯 方 
法 (参见 第 14 章 ) 。 

第 二 部 分 更 困难 、 更 有 趣 ， 是 学 习 图 结构 (Cowell 等 1999) 。 这 基本 上 是 一 个 模型 选 
择 问 题 ， 就 像 学 习 多 层 感知 器 的 结构 的 增 量 方法 一 样 ( 参 见 11.9 节 )， 我 们 可 以 将 这 看 作 
在 所 有 可 能 的 图 的 空间 中 进行 搜索 。 例 如 ， 我 们 可 以 考虑 增加 或 删除 一 条 弧 、 增 加 或 删除 
一 个 隐藏 节点 的 操作 ， 然 后 进行 搜索 来 (在 每 次 中 间 和 迭代 使 用 参数 学 习 ) 评 估 每 一 步 的 改 
进 。 然 而 需要 注意 ， 为 了 检查 过 拟 合 ， 我 们 应 该 适当 地 正则 化 ， 这 对 应 于 偏爱 较 简单 的 图 
贝 叶 斯 方法 (Neapolitan 2004)。 然 而 ， 由 于 状态 空间 很 大 ， 所 以 如 果 有 人 类 专家 能 够 手工 
定义 变量 之 间 的 因果 关系 并 创建 变量 的 小 的 组 群 的 子 图 ， 这 将 是 特别 有 益 的 。 

在 第 16 章 中 ， 我 们 将 讨论 贝 叶 斯 方法 ， 并 在 16. 8 节 讨 论 非 参数 贝 叶 斯 方法 ， 随 着 更 
多 数据 的 到 来 ， 模 型 结构 可 能 最 终 变 得 更 复杂 。 


14.8 影响 图 


正如 在 第 3 章 中 ， 我 们 将 概率 推广 到 具有 风险 的 动作 一 样 ， 影 响 图 (influence diagram) 是 
一 种 图 形 模型 ， 是 包括 决策 和 效用 的 图 模型 的 推广 。 影 响 图 包含 机 会 节点 (chance node), € 
代表 在 图 模型 中 使 用 的 随机 变量 (参见 图 14-14)。 影 响 图 还 包含 决策 节点 和 效用 节点 。 决 策 
节点 (decision node) 代 表 动 作 的 选择 。 效 用 节点 
(utility node) 是 计算 效用 的 地 方 。 决 策 可 以 根据 机 会 
节点 做 出 ， 并 且 可 能 影响 其 他 机 会 节点 和 效用 节点 。 

影响 图 上 的 推断 是 对 图 模型 上 的 信念 传播 的 扩 
展 。 给 定 一些 机 会 节点 上 的 证 据 ， 传 播 证 据 ， 并 且 
对 每 一 个 可 能 的 决策 ， 计 算 效 用 并 选择 具有 最 大 效 
用 的 决策 。 对 一 个 给 定 输入 分 类 的 影响 图 在 图 14- aa 对 应 于 分 类 的 影响 图 。 依 六 于 





14 中 给 出 。 给 定 输 入 ， 决策 节点 决定 类 ， 而 对 每 个 输入 zx， 选择 一 个 导致 一 定 效 
选择 ， 我 们 得 到 一 定 的 效用 (风险 )。 用 (风险 ) 的 类 
14.9 注释 


图 模型 有 两 个 优点 。 第 一 个 优点 是 ， 可 以 呈现 变量 的 相互 影响 ， 更 好 地 理解 过 程 。 例 
如 ， 使 用 因果 生成 模型 。 第 二 个 优点 是 ， 通 过 找 出 对 应 于 贝 叶 斯 规则 和 边缘 化 等 基本 概率 
过 程 的 图 操作 ， 可 以 将 推断 任务 映射 到 可 以 有 效 表 示 和 实现 的 通用 图 算法 。 

变量 和 它们 之 间 的 依赖 性 用 图 直观 地 表示 ， 许 多 变量 的 复杂 的 全 局 图 数 分 解 成 每 个 都 
只 涉及 变量 的 一 个 小 子 集 的 局 部 函数 的 乘积 的 思想 被 用 在 决策 、 编 码 和 信号 处 理 的 不 同 领 


ik, Kschischang, Frey 和 Loeliger(2001) 给 出 了 评述 。 

推断 算法 在 多 树 或 结 树 上 的 复杂 度 由 父 节点 的 最 大 个 数 或 最 大 团 的 大 小 决定 。 当 这 些 
很 大 时 ， 严 格 推 新 可 能 是 不 可 行 的 。 在 这 种 情况 下 ， 我 们 需要 使 用 近似 或 抽样 算法 。Jor- 
dan 等 1999, MacKay 2003, Andrieu 等 2003, Bishop 2006 和 Jordan 2009 讨论 了 各 种 近 
似 算法 和 马尔 科 夫 链 蒙 特 卡 洛 (Markov chain Monto Carlo，MCMC) 算 法 。 

图 模型 特别 适合 表示 表示 贝 叶 斯 方法 ， 其 中 除了 代表 变量 节点 之 外 ， 还 有 代表 隐藏 变 
量 和 模型 参数 的 节点 。 我 们 还 可 以 引进 分 层 结构 ， 其 中 有 代表 超 参数 ( 即 第 一 级 参数 的 先 
验 的 第 二 级 参数 ) 的 节点 。 

在 许多 领域 中 ， 把 数据 看 成 是 从 一 个 可 以 可 视 化 为 图 的 因果 生成 模型 抽样 都 可 以 使 得 
理解 和 推理 更 容易 。 例 如 ， 在 文本 分 类 中 ， 生 成 文本 可 以 看 作 这 样 一 个 过 程 ， 作 者 决定 在 
一 些 话题 上 编写 文档 ， 然 后 为 每 个 话题 选择 一 组 词 。 在 生物 信息 学 中 ， 许 多 使 用 图 形 方法 
的 领域 之 一 是 进化 树 (phylogenetic tree) 的 建 模 。 进 化 树 是 一 个 有 向 图 ， 它 的 叶子 节点 是 
当前 的 物种 ， 非 终端 节点 是 过 去 的 祖先 ， 它 们 在 物种 形成 事件 时 分 裂 成 多 个 物种 ; 它 的 条 
件 概 率 取决 于 物种 和 它 祖先 之 间 的 进化 距离 (Jordan 2004) 。 

我 们 将 在 第 15 章 讨 论 的 隐 马 尔 科 夫 模 型 也 是 一 种 类 型 的 图 模型 ， 与 语音 识别 一 样 ， 
它 的 输入 是 顺序 依赖 的 。 在 语音 识别 中 ， 词 是 称 作 音 素 的 基本 语音 的 序列 (Ghahramani 
2001) 。 这 种 动态 图 形 模 型 (dynamic graphical model) 在 许多 存在 时 间 维 的 领域 (如 演讲 、 
音乐 等 ) 都 找到 了 应 用 (Zweig 2003; Bilmes 和 Bartels 2005), 

图 模型 也 可 以 用 于 计算 机 视觉 、 信 息 检 索 (Barnard 等 2003) 和 场景 分 析 (Sudderth 等 
2008) 中 。 图 模型 在 生物 信息 学 中 应 用 的 一 个 综述 在 Donkers 和 Tuyls 2008 F, 


14.10 “习题 


1. 在 分 类 问题 中 使 用 两 个 独立 的 输入 变量 ， 即 p(xi1，zs |O)=pla,|C) pCa.|C), üfgit 
算 bGi ET C)? J pGG; |C) ~N Cy » o; HEF AZ o 
2. 对 于 头 到 头 节 点 ， 证 明 式 (14-10) 列 含 P(X, Y)=PC(X) * PCY), 
解 : 我 们 知道 POX, Y, 2—P(OI|X, YOPCX, YO, mR P(X, Y, 
Z)=P(X)PCY)P(Z|X, YO, WRIA P(X, Y)=P(X) * P(Y). 
3. 在 图 14-4 中 ， 计 算 PCR|W), PCR|W, SAH PCR|W, ~S). 





解 : 
— S)P(R.W,S) 
P(R|W) = 一 天 二 一 SS 
PCW) >) 2,PO.W,S) 
R S 
>) PCR) PC) POI |R, S) 
pees S 
24 DJ PCR) PCS) PCV |R , S) 
R S 
PCRIW,S) —P6R WS) _ PGOPCS PO |R S) 
POW,S) S)P(R)P(S) PCW |R,S) 
R 
P(R|W, ~ S) - EGGW; ~ S) _ _P(R)P(~ S)PCW |R , ~ S) 


PCW, ~ 5) S)P(R)P(~ S)POV|R, ~ S) 
4. 在 式 (14-30) 中 ，X 是 二 元 的 。 如 果 X 可 以 取 天 个 离散 值 之 一 ， 则 需要 对 它 做 什么 修改 ? 
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解 : 假设 有 j 二 1，…，K 个 状态 。 于 是 ， 为 了 保持 模型 是 线性 的 ,需要 用 单独 的 
w ,对 每 个 状态 参数 化 ， 并 使 用 软 最 大 映射 到 概率 。 


k 
exp 2 Wiji U; 十 Wyo 
POX = 3|U,,*-U,,(:,)) = K ~ - 


^ exp Ži wU; + wy 
5. 证 明 : 在 联合 分 布 可 以 表示 成 式 (14-12) 的 有 向 图 中 ，> p(x) = 1 。 


解 : 当 我 们 在 所 有 可 能 的 值 上 求 和 时 ， 这 些 项 消失 ， 因 为 这 些 是 概率 。 例 如 ， 取 图 14-3: 
P(X,Y,Z) =P(X)P(Y|X)P(Z|X) 


YS Pa YD) = S P PPOR IOPI 
X Y Z X Y Z 


= 2, POOPY |X) 2 PZIX) 


- POG,X) 
-x DP (XP IO 2, EI OR 


X 
= P Q0 D/P |X) = 2,PQOOD = =Í 


6. 将 Decker 立方 体 绘制 成 图 模型 ， 定义 链 指示 不 同 角 解释 之 间 的 互 斥 增强 或 抑制 关系 。 
解 : 我 们 要 有 对 应 于 角 的 节点 ， 并 且 它 们 的 取 值 取决 于 解释 。 在 具有 相同 的 角 解 
释 的 角 之 间 会 有 正 的 、 增 强 、 兴 奋 连 接 ; 在 具有 不 同 的 角 解 释 的 角 之 间 会 有 负 的 、 抑 
制 的 连接 (参见 图 14-15). 





图 14-15 Necker 立方 体 的 两 种 不 同 解释 .“ 十 ”标记 的 实 线 是 兴奋 的 ， 而 “一 ” 
标记 的 虚线 是 抑制 的 


7. 用 图 14-7 的 方式 ， 为 两 类 的 线性 逻辑 斯 缔 回 归 给 出 图 模型 。 
8. 提出 一 种 合适 的 度量 ， 可 以 在 学 习 图 结构 中 用 作 状 态 -空间 搜索 。 合 适 的 操作 是 什么 ? 
f: 我 们 需要 一 个 评分 函数 ， 它 是 两 部 分 的 和 。 一 部 分 量化 拟 合 的 优 度 ， 即 给 定 模 

型 ,数据 有 多 大 可 能 是 由 模型 生成 的 ; 一 个 量化 图 形 的 复杂 度 ， 以 减轻 过 拟 合 。 在 度量 复 
杂 性 时 ， 我 们 必须 考虑 节点 的 总 数 和 表示 条 件 概率 分 布 所 需 的 参数 个 数 。 例 如 ， 为 了 使 节 
点 具有 尽 可 能 少 的 父 节 点 。 可 能 的 操作 是 添加 /删除 一 条 边 和 添加 /删除 一 个 隐藏 节点 。 

9. 通常 ， 在 报纸 上 ， 一 个 记者 在 连续 几 天 内 写 一 系列 关于 同一 个 主题 的 文章 作为 新 闻 报 
道 进展 。 如 何 使 用 图 模型 对 这 建 模 。 
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隐 马 尔 科 夫 模 型 





我 们 放宽 样本 实例 相互 独立 的 假设 ， 引 入 马尔 科 夫 模型 ， 将 输入 序列 建 模 为 由 一 个 参 
数 化 随机 过 程 所 生成 的 序列 。 我 们 讨论 如 何 进行 这 种 建 模 ， 并 介绍 从 样本 序列 学 习 这 种 模 
型 的 参数 的 算法 。 


15.1 引言 


迄今 为 止 ， 我 们 一 直 假 设 样本 中 的 实例 是 独立 同 分 布 的 。 这 样 做 的 好 处 是 样本 的 似 然 
可 简化 为 各 个 实例 的 似 然 之 积 。 然 而 ， 这 一 假设 在 连续 实例 相互 依赖 的 应 用 中 并 不 成 立 。 
例如 ， 在 一 个 单词 中 的 连续 字母 是 依赖 的 ; 在 英文 中 ,，“h” 非 常 可 能 跟随 在 “t” 而 非 “x” 
后 。 这 类 观测 序列 (例如 ， 单 词 中 的 字母 ，DNA 序列 中 的 基 对 ) 的 过 程 并 不 能 用 简单 的 概 
率 分 布 进行 建 模 。 一 个 类 似 的 例子 是 语言 识别 ， 其 中 语音 片段 由 称 为 音素 的 语音 基 元 组 
成 。 只 有 某 些 音素 序列 是 允许 的 ， 即 该 语言 的 单词 。 在 更 高 的 层次 ， 以 某 种 序列 书写 或 读 
出 单词 ， 形 成 由 该 语言 的 语法 和 语义 规则 定义 的 语句 。 

一 个 序列 可 用 一 个 参数 化 的 随机 过 程 (parametric random process) % Zi] m., ARH, 
我 们 讨论 如 何 进行 这 种 建 模 ， 还 讨论 如 何 从 实例 序列 的 训练 样本 中 学 习 模 型 的 参数 ，。 


15.2 离散 马尔 科 夫 过 程 


考虑 一 个 系统 ， 其 在 任意 时 刻 处 于 NN 个 离散 状态 S1，S;，…，Sn 中 的 一 个 。 时 刻 t 
的 状态 记 作 qi. t—1. 2, =. FM, g =S: RNENAlt 系统 处 于 状态 S;。 尽 管 我 们 用 
“时 刻 ” 好 像 这 应 该 是 一 个 时 间 序 列 ， 但 是 这 种 方法 对 任意 序列 ， 无论 是 时 间 、 空 间 、 
DNA 串 上 位 置 等 ， 都 是 有 效 的 。 
系统 在 有 规律 的 、 间 隔 的 离散 时 刻 ， 根 据 以 前 的 状态 值 ， 以 给 定 的 概率 转移 到 一 个 
状态 : 
P(qa = S;|lq, = Siqi-1 = Sis) 
对 于 一 阶 马 尔 科 夫 模 型 (Markov model) 的 特例 ， 系 统 在 时 刻 t 十 1 的 状态 仅仅 依赖 于 
在 时 刻 t 的 状态 ， 而 与 之 前 的 状态 无 关 : 
Piqui = Slo: = Sg = S, = PC, = S, lq; = S2 (15-1) 
这 相当 于 说 ， 给 定 当 前 的 状态 ， 未 来 的 系统 状态 独立 于 过 去 的 状态 。 这 恰 是 谚语 “ 今 
天 是 你 余生 的 第 一 天 ?的 数学 表达 版 本 。 
我 们 进一步 简化 模型 ( 即 正 则 化 ) 通 过 假定 从 S; 到 3; 的 转移 概率 (transition probability) 是 
独立 于 时 间 的 : P 
a; = P(qa4 = S lg, = SO (15-2) 
满足 


N 
a, 20.2 > ay = 1 (15-3) 


j=l 


因此 ， 从 状态 5S; 到 状态 5S; 的 状态 转移 总 是 具有 相同 的 概率 ， 无 论 这 个 转移 在 观测 序 
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Ji HE fay ey ex fay Hh A ^E. A—[a; ] 是 一 个 NXN 矩阵， 其 每 行 之 和 均 为 1。 

这 可 看 作 一 个 随机 自动 机 (stochastic 
automation) (参见 图 15-1)。 从 每 个 状态 
Si ， 系 统 以 概率 as 转移 到 状态 S;， 并 且 这 
一 概率 在 任何 时 刻 t 均 相同 。 唯 一 的 特例 是 
第 一 个 状态 。 我 们 定义 初始 概率 (initial 
probability)x;， 它 是 序列 中 第 一 个 状态 S, 
的 概率 : 


ri = P(q = S) (15-4) 
满足 
N 图 15-1 具有 三 个 状态 的 马尔 科 夫 模型 的 例子 。 
Dy (15-5) 这 是 一 个 随机 自动 机 ， 其 中 元 是 系统 始 
于 状态 S; AY EP , jy 是 统 从 状态 S; 转 
[1 一 [mw] 是 一 个 具有 N 个 元 素 向 量 ， a em 


元 素 和 为 1, 

在 一 个 可 观测 的 马尔 科 夫 模型 (observable Markov model) 中 ， 状态 是 可 观测 的 。 在 任 
意 时 刻 t+， 我 们 知道  ， 并 且 随 着 系统 从 一 个 状态 转移 到 另 一 个 状态 ， 我 们 得 到 一 个 观测 
序列 ， 这 是 一 个 状态 序列 。 该 过 程 的 输出 是 每 个 时 刻 状态 的 集合 ， 其 中 每 个 状态 对 应 于 一 
个 物理 可 观测 事件 。 

有 一 个 观测 序列 O， 它 是 状态 序列 0 二 Q 二 4g19;…gr)}， 其 概率 为 


T 
P(O = Q|A ID = PG) || Pt, qa) — Ta fany *** Qa, ap 
i=] 


r, 是 第 一 个 状态 @ WER, aup EKA qi 到 的 概率 等 。 我 们 将 这 些 概率 相 乘 ， 得 到 产 
生 整 个 序列 的 概率 。 
为 了 有 助 于 理解 ， 我 们 现在 看 一 个 具体 例子 (Rabiner 和 Juang 1986), BEA N 个 容 
仑 ， 每 个 容 俘 中 仅 有 一 种 颜色 的 球 。 例 如 ， 有 一 个 帮 红 色 球 的 容 虎 ， 一 个 装 蓝 色 球 的 容 天 
等 。 茶 人 一 个 接 一 个 地 从 各 个 容 仑 中 取 球 ， 并 将 它们 的 颜色 展示 给 我 们 。 令 % 表 示 在 时 刻 
t 所 取 球 的 颜色 。 假 定 有 3 个 状态 : 
Si s 2h So: É, S; : 绿 


(15-6) 


并 有 初始 概率 : 
m= [h S90 2,0. 3]' 

ajy 是 从 容器 i 取 一 个 颜色 i WE. AA ar 7 取 一 个 (颜色 7 的 ) 球 的 概率 。 例 如 ， 转 
移 矩阵 为 : 
0.4 0.3 0.3 
0.2 0.6 0.2 
0.1 0.1 0.8 

^E ILIA. 很 容易 生成 K 个 长 度 为 的 随机 序列 。 我 们 来 看 看 如 何 计算 一 个 序列 
的 概率 ， 假定 前 4 个 球 是 “ 红 ， 红 ， 绿 ， 绿 ”。 这 对 应 于 观测 序列 O={S,, Si, Ss, Ss}. 
其 概率 为 : 


A= 








P(O\|A.,ID = PCS) * PS, E. bd PCS; |S) $ PCS; | Ss) 
=m] * Aj; © 13 * 433 


=0.5X 0.4 X 0. 3 X 0. 8 = 0. 048 (15-7) 
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现在 ， 我 们 来 看 看 如 何 学 习 人 参数 开 和 4。 给 定 天 个 长 度 为 工 的 序列 ， 其 中 gf 表示 序 
列 上 在 t 时 刻 的 状态 ,初始 概率 估计 是 以 S 开始 的 序列 个 数 除 以 序列 总 数 : 
。_ sis 开始 的 序列 ) 0 79 indt 
# { FF Bil } K 
Hr, and o 取 真 值 则 1(b) 为 1， 否则 1(b) 为 0。 
至 于 转移 概率 ， 对 as 的 估计 为 从 S. SERE SI S; 的 个 数 除 以 所 有 序列 中 从 S; 转 移 的 总 数 : 


T=! 
3—1 


& US, B E 
hs 是 一 个 蓝 色 球 跟 在 一 个 红色 球 之 后 的 个 数 除 以 所 有 序列 中 红色 球 的 总 数 。 


15.3 隐 马 尔 科 夫 模型 


在 隐 马 尔 科 夫 模 型 (Hidden Markov Model, HMM) 中 ， 系 统 状 态 是 不 可 观测 的 ， 但 
是 到 达 一 个 状态 时 ， 可 以 记录 一 个 观测 ， 这 个 观测 是 该 状态 的 概率 孔 数 。 我 们 假定 每 个 状 
态 的 一 个 离散 观测 取 自 集合 {vi， vas ttg Um}: 

b;(m) = P(O, = Um |q = S;) (15-10) 

b;(m) 是 系统 处 于 状态 S 时， 我 们 观测 到 o, (2 王 1，…，M) 的 观测 概率 (observation 
probability) 或 发 射 概率 (emission probability) 。 我 们 再 次 假定 齐 次 模型 ， 其 中 发 射 概率 不 
依赖 于 时 间 t。 这 种 观测 值 形 成 了 观测 序列 O。 状 态 序 列 Q 是 不 可 观测 的 ， 这 正 是 称 为 
“ 隐 ? 模 型 的 缘由 ， 但 是 状态 序列 可 以 通过 观测 序列 推 新 。 注 意 ， 通 常 许 多 不 同 的 状态 序列 
Q 可 以 产生 相同 的 观测 序列 O， 但 是 以 不 同 的 概率 产生 。 正 如 给 定 服从 正 态 分 布 的 一 个 独 
立 同 分 布 (iid) 的 样本 ， 有 无 限 多 对 可 能 的 (yw，o) 值 ， 我们 感 兴趣 的 是 能 以 最 大 似 然 生成 这 
个 样本 的 那 对 (jy，o)。 

还 需要 注意 的 是 ， 在 隐 马 尔 科 夫 模 型 中 ， 随 机 性 源 自 两 个 方面 : 除了 随机 地 从 一 个 状 
态 转移 到 另 一 状态 外 ， 系 统 在 一 个 状态 中 产生 的 观测 也 是 随机 的 。 

再 次 回 到 我 们 的 例子 。 在 隐 马 尔 科 夫 模 型 对 应 的 容器 - 球 实例 中 ， 每 个 容器 包含 不 同 
颜色 的 球 。 令 bm RRMA BE 7 取出 一 个 m 颜色 球 的 概率 。 我 们 再 次 观 球 颜色 的 序列 ， 
但 并 不 知道 抽取 球 的 容器 序列 。 因 此 ， 好 像 容 器 置 于 一 个 布 帘 后 ， 一 个 人 随机 地 从 一 个 容 
器 中 取 一 个 球 ， 而 展示 给 我 们 的 仅仅 是 球 而 不 展示 抽取 球 的 容器 。 球 展示 后 被 放 回 容 器 以 
保持 发 射 概率 不 变 。 球 的 颜色 数 可 能 不 同 于 容 顺 数 。 例 如 ， 我 们 假定 有 3 个 容器 ， 而 观测 
序列 为 : 


aij -一 


(15-9) 


O= (£t, 8... x) 
在 前 面 的 情况 下 ， 知 道观 测 ( 球 的 颜色 )， 我 们 就 确切 知道 状态 (容器 )， 因 为 对 不 同 颜 
色 的 球 有 不 同 的 容器 ， 而 且 每 个 容器 只 含有 一 种 颜色 的 球 。 可 观测 马尔 科 夫 模型 是 隐 马 尔 
科 夫 模型 的 一 个 特例 ， 其 中 M=N, FFA WR ;— m. WDA 1, Ail 5; Cm 9 0, 1 
是 在 隐 马 尔 科 夫 模 型 中 ， 一 个 球 可 能 取 自 任意 容器 。 在 这 种 情况 下 ， 对 于 相同 的 观测 序列 
O， 可 能 存在 多 个 可 能 的 状态 序列 Q 产生 O( 参 见 图 15-2), 
对 上 述 进行 总 结 和 形式 化 ， 一 个 HMM 具有 以 下 元 素 : 
D N: 模型 的 状态 个 数 。 
S (58,5) 
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2) Mi 字母 表 中 的 不 同 观测 符号 的 个 数 。 
V = (Vo UM) 
3) 状 态 转移 概率 : 
A= ie] d «=P. = S$ lo— 5D 
4) 观 测 概 率 : 
B = [b;(m)] #Ħ b;(m) = P(O, = vn |q, = S;) 
5) 初 始 状态 概率 : 
H-—[zx] #4 m; = Pq = Sp 

N 和 M Katie MEER SUB. A a= (A, B, MÆ HMM 的 参数 集 。 给 定 A, 
模型 可 用 于 产生 任意 多 个 任意 长 度 的 观测 序列 ， 但 是 我 们 通常 感 兴趣 的 是 另 一 方向 ， 即 给 
定 观 测序 列 组 成 的 训练 集 ， 估 计 模 型 的 参数 。 





图 15-2 HMM 按时 间 展 开 为 网 格 ， 它 展示 了 所 有 可 能 的 轨道 。 以 粗 线 所 示 的 一 条 
路 径 是 产生 观测 序列 的 真正 (未 知 ) 状 态 轨 迹 


15.4 HMM 的 三 个 基本 问题 


给 定 一 些 观测 序列 ， 我 们 对 下 面 三 个 问题 感 兴趣 : 

1) 给 定 一 个 模型 *+， 我 们 希望 估计 任意 给 定 的 观测 序列 O= (O1O; …Or} 的 概率 ， 即 佑 
it PCO|A). 

2) 给 定 一 个 模型 4 和 一 个 观测 序列 O， 我 们 而 望 找 出 状态 序列 QS iqa gr, ER 
有 产生 O 的 最 大 概率 。 即 我 们 要 找到 最 大 化 PIO, AH Q*. 

3) 给 定 观 测序 列 组 成 的 训练 集 X 王 4O }:;， 我 们 希望 学 习 这 样 的 模型 ， 它 最 大 化 产生 XX 
的 概率 。 即 我 们 要 找到 最 大 化 POX |DA" 

让 我 们 逐一 考察 这 些 问题 的 解决 方法 ， 其 中 每 个 方法 又 用 于 解决 下 一 个 问题 ， 直 到 我 
们 计算 出 4, 或 者 从 数据 中 学 习 一 个 模型 。 


15.5 ” 估 值 问题 


给 定 观测 序列 O= (OO …Or} 和 状态 序列 Q= (aa …ar}， 给 定 状态 序列 Q 观测 O 的 
概率 为 : 


， 422 
P(O|Q,A) = [| Poo, Iq) = b, (OD 。 ba, (Oz) b, (Or) €15-11) 
t=1 


424 


242 第 15 = 


我 们 无 法 直接 计算 上 式 ， 因 为 我 们 不 知道 状态 序列 。 状 态 序 列 Q 的 概率 是 : 
P(Q\A) = P(g) [| Pla la = 2,24, 72 (15-12) 


因此 联合 概率 为 ， 


qT—|?T 


T T 
PQI) =P) [| PX. la) [| PO. Ig) 
t=2 t=1 


=R D, CO) 2, 0, CO 9a, ob COT) (15-13) 
我 们 可 以 通过 边缘 化 这 一 联合 概率 ， 即 通过 在 所 有 可 能 的 Q ERA, HA POJA): 
人 了 一 2, PQl 


所 有 可 能 的 Q 
但 是 ， 这 种 方法 是 不 现实 的 ， 因 为 如 果 假 定 所 有 的 概率 都 是 非 零 的 ， 则 有 N 个 可 能 
的 Q。 和 幸运 的 是 ， 存 在 计算 P(O1X) 的 有 效 方法 ， 称 为 正 反 向 过 程 (forward-backward pro- 
cedure) (参见 图 15-3) 。 其 基本 思想 是 将 观测 序列 分 为 两 个 部 分 : 第 一 部 分 始 于 时 刻 1 止 于 
时 刻 上 ， 而 第 二 部 分 从 时 刻 t 十 1 到 时 刻 T. 
给 定 模 型 和 A+， 我 们 定义 正 向 变量 (forward variable?)a, (站 为 到 时 刻 上 观测 到 部 分 序列 {O， 
O HERA t 的 状态 为 S, 的 概率 : 
a, (i) = PCO,--O,,.q, = S; |A) (15-14) 
这 种 方法 的 优点 在 于 可 通过 累积 结果 而 递归 地 计算 上 式 。 
e 初始 化 : 
a, (i) =P(O;.q, = S; |A) 
=P(O,|q = S;,A)P(q = S |A) 
— zb; CO) (15-15) 
e 递归 (参见 图 15-3a) : 
arı (j) =P(O OH qua = S |A) 
一 P(O…OH | Qe = Sj A) PG = S; |A) 
—PlO m0 [gn = S; P On | gus = S; AVP Con, = S [22 
= Pi we sg = 8; (A) PCO. [qu = Si) 


= PhO p = S; A) > PCO\***O, 5, -— Si squa = 5; lA) 


= PCO; | doi = S; sÀ) 
S PCO, m0, qus = S lay = SAP = & [a 


= P(O | qua S; sÀ) 
> PO, "0, Iq, 一 Sr ADP kana == S; Iq, = S; A) P(q, — S; lA) 


= P Om | qua — S; sÀ) =l 
S PG, 0, ug, = Sgn = Sg; = 8, 08} 


=| Ja Ga; |b; (On) (15-16) 
xz) 解释 前 寺 个 观测 并 且 止 于 状态 S,。 通 过 将 其 乘 以 概率 aj 转移 到 状态 S;,， 但 是 因 
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为 有 N 个 可 能 的 先前 状态 ， 所 以 我 们 需要 在 所 有 这 样 的 可 能 先前 状态 S; ERAN. 5; COLL 
则 是 产生 第 (十 1) 个 观测 且 在 时 刻 :十 1 处 于 状态 S; 的 概率 。 





a) IEJ] b) RA 
图 15-3 正 反 向 过 程 : a) w(7) 的 计算 ，b) BC 站 的 计算 


当 我 们 计算 正 向 变量 时 ， 容 易 计 算 观 测序 列 的 概率 ， 


POG = > PCO.qr = SI = Sat (15-17) 
ar (i) FE PE AE RE FS XUL E 9] 3E 2 IE T RR S; 的 概率 。 我 们 需要 在 所 有 可 能 的 终止 状态 上 
求 和 。 
计算 w (Ci 的 复杂 度 为 O(ONT)， 并 且 这 在 合理 的 时 间 内 解决 了 第 一 个 估 值 问题 。 虽 然 
现在 我 们 并 不 需要 它 ， 但 是 我 们 类 似 地 和 定义 反 向 变量 (backward variable) 8, (z) ， 作 为 在 时 
刻 上 处 于 状态 S; 且 观测 到 部 分 序列 Oca OL BS BOR : 
BO) = PQOA77Or|[gq; = Bd) (15-18) 
这 也 可 以 按 如 下 步骤 递归 地 计算 ， 这 次 反 向 进行 : 
e 初始 化 (任意 地 初始 化 为 1): 
Br(i) 一] 
e 递归 ( 见 图 15-3b): 
AG) = PG, Os lax = s» 


= X P (Oni Or equa = S; lq. = Si) 
= S PG,a--Or lga 一 S; sqi = Sis AJP Cae = S; Iq. 一 S. «AJ 
ms SP (On EAS — $;5q, — S254) 


P (Oaa Or ga — S; sq: 一 S; ,A)P(qu, M S; Iq. — Ss yA 
» PO | qua -— S; sÀ) t 


PG945***Os qua == S; A) P Cars — S; Iq. — S AJ 


= S aibi Oi GG (15-19) 
当 处 于 状态 SH., A N 种 可 能 的 下 一 状态 S;， 每 个 的 概率 为 a; 。 在 该 状态 上 ， 我 们 
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产生 第 t 十 1 个 观测 ， 而 有 &H GD) 解 释 时 刻 t 十 1 后 的 所 有 观测 。 
对 于 实现 ， 需 要 引起 注意 的 是 : 和 有 ,都 是 通过 多 个 小 概率 相 乘 计算 的 ， 而 当 序列 很 
长 时 有 下 洲 的 危险 。 为 了 避免 下 游 ， 我 们 在 每 一 步 通过 将 w GO FBV 
l 


Sa. (j) 


对 其 进行 规范 化 。 同 样 也 将 B,C 让 ) 乘 以 相同 的 c, 对 其 进行 规范 化 (B.C 让 之 和 不 为 1)。 规 范 化 
后 不 能 使 用 式 (15-17)。 而 我 们 有 (Rabiner 1989) 
P(O|A) = 一 一 或 logP(O|X) = 一 》\loge, (15-20) 


C, 
t 





Gi = 





15.6 寻找 状态 序列 


我 们 现在 考虑 第 二 个 问题 ， 即 给 定 模型 MA， 寻 找 以 最 高 概率 产生 观测 序列 O= (0, O, *- 
Or} 的 状态 序列 Q= {qiq qr} o 
定义 Y, (GD) 为 给 定 O 和 1， 在 时 刻 上 处 于 状态 S; 的 概率 ， 它 可 以 按 下 式 计算 : 
Xx) =PCq; = & |0.) 


-PO lg, = Si) Pg, = 8,120 
PCO|A) 


— P(O, O, |g, = Si A) PCO Or |g. = Si A PG, = Si 1A) 
N 
SPON = SA) 
j=l 


_ P(Oi**O,,q, — S; A) PCO, Of |q. —= TM 


N (15-21) 
>» PG|g, = S,,0P(g, S la 
j=l 

= ae (a) (15-22) 


Na DRG) 

这 里 我 们 看 到 a,(i) 和 8, Ci) ÆR E CNF A: E [8] AE E a,(i) 解 释 到 
时 刻 :并 终止 于 状态 S,; 的 序列 的 前 一 部 分 ， 而 反 向 变量 B, C REMA E R EB] T 
的 后 一 部 分 。 

分 子 w GO B, (CD) 解 释 在 时 刻 上 系统 处 于 状态 S; 的 整个 序列 。 我 们 需要 将 其 除 以 所 有 在 时 
刻 上 可 能 转移 到 的 中 间 状 态 来 对 其 进行 规范 化 ， 并 保证 Sy. = 1。 


为 了 找到 状态 序列 ， 可 以 在 每 一 时 间 步 t 选择 具有 最 高 概率 的 状态 : 
qr = arg max y, (i) (15-23) 
但 是 这 有 可 能 在 时 刻 上 和 时 刻 t 十 1 选择 S; 和 SS ;作为 最 合适 的 状态 ， 即 使 这 时 有 a; =0. X 
了 找到 单个 最 好 的 状态 序列 (路 径 )， 我 们 使 用 基于 动态 规划 的 Viterbi 算法 (Viterbialgo- 
rithm) ， 它 将 这 样 的 转移 概率 考虑 在 内 。 
给 定 状态 序列 Q 二 qiq2…gr 和 观测 序列 O 二 O10O;…Or， 定 义 0, GO) DJ TE SE Z0] c 导致 前 z 
个 观测 并 止 于 状态 S; 的 最 高 概率 路 径 的 概率 : 
©) = max pl(qig qs = 8,,0,*-O, |) (15-24) 


4 d? °°" d,— 


于 是 ， 可 以 递归 地 计算 0,4 60. Tu Do fe RIAM T Be ie, ERE BT ZU E PE 
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可 能 的 状态 。 算 法 如 下 : 


1) 初始 化 : 
01 (2) =x;b; CO, ) 
2) 3S IH : 
ô (j) —maxó,4 (i)a; * b; CO) 
W,(j) =arg maxd,-; (i)a; 
3) Aik 
力 ” 一 max6r(z) 
qr —arg maxó7(1) 
4) BRE CIRAS Fe 90] ) [0] aH : 


qt = Vai(qiu) t= T—1,T—2,-,1 
使 用 图 15-2 A GR. wv, CO PR E TE BST 20] :一 1 最 大 化 6.(7) 的 状态 ， 即 最 佳 先 
前 状态 。Viterbi 算法 与 正 向 阶段 具有 相同 的 复杂 度 ， 其 中 在 每 一 步 用 取 最 大 值 蔡 代 
求 和 。 


15.7 学习 模型 参数 


我 们 现在 考虑 第 三 个 问题 ， 从 数据 中 学 习 HMM。 该 方法 是 最 大 似 然 ， 我 们 要 计算 最 
tU d REAR x = (OE AR A^. BURR AE P(X AM) 的 1 。 我 们 从 定义 便 
于 稍 后 讨论 的 新 变量 开始 。 

给 定 整个 观测 O lA. ELEG, OM TERT Z0] t IET ARS S; 且 在 时 刻 t 十 1 处 于 状态 S, 
的 概率 : 

& (,3) = P(Q, = Si,qu = S;|O,A) (15-25) 
上 式 可 以 计算 如 下 (参见 图 15-4): 
Et =P, = 55 042 
_ POla = Su = Ss) PG, = Sogar S.A) 
E PCOJ|A) 
. PXOla, = Sq = Sj: PG = S; la. = S; A) PCa = Si la) 
P(O|A) 


i = — 
(BOD | PCO. lq, = S.A PtQus | devs = S; SAJ 


PCOns*** OF lg — S; Aa P Cq = Si là) 


i = — 
(BOD P (09 oO = $; AIP (On i = S; xA 


P(OA;O:; |q = Sj AD ay 
A a, (i)b; C040. Qa 
p» SIP (q, — S, Qe 一 S,,O|A) 
E d 


i a, G0) ab; (Onai Bes (7) (15-26) 
A Sar GOaybi COL ) Ba (D 
k l 


a, (zi 解释 产生 前 上 个 观测 且 在 时 刻 上 止 于 状态 S;。 以 概率 a; 转移 到 态 S;， 产 生 第 t+ 1 
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个 观测 ， 并 在 :十 1 时 刻 从 S; 开始 继续 产生 观测 序列 的 其 余部 分 。 通 过 将 & (i, 门 除 以 所 有 
在 时 刻 t 和 时 刻 t 十 1 可 能 处 于 的 状态 对 对 其 进行 
规范 化 。 

如 果 需 要 ， 可 以 通过 对 所 有 可 能 的 下 一 状态 
在 弧 概率 上 边缘 化 来 计算 在 上 时刻 系统 处 于 状态 
S; 的 概率 : 


N 
5G = eG (15-27) 


需要 注意 的 是 ， 如 果 马 尔 科 夫 模 型 不 是 隐 的 
而 是 可 观测 的 ， 则 y, ORI S 4，7) 两 者 均 为 0/1。 
当 它 们 不 是 0/1 时 ， 通 过 软 计 数 (soft count) 3x FF 
的 后 验 概率 来 估计 它们 。 正 如 监督 分 类 和 非 监 督 聚 类 之 间 的 区 别 ， 类 标号 相应 为 已 知 的 和 
未 知 的 。 在 使 用 EM 算法 的 非 监 督 聚 类 中 (7. 4 节 )， 类 标号 是 未 知 的 ， 我 们 首先 (在 下 步 
中 ) 估 计 它 们 ， 而 后 (在 M 步 中 ) 使 用 这 些 估 计 计 算 参 数 。 

类 似 地 ， 这 里 使 用 Baum-Welch 算法 (Baum-Welch algorithm)， 它 是 一 种 EM 过 程 。 
ERBKER, SHEE, HEMMAS, B. ID, WR EG, DA yO., RA 
ft Mb, MHEG, DAA, HRA. xx WITZE MEET] E EIMESE. xx ENS PCO 
| 20 E] ELTE XC ERE PAS). 

假设 指示 变量 zi 为 : 





图 15-4 WAWE ECG, j) 


l H p S 
TT | mE (15-28) 
0 否则 
Jt A 
1 H t LS, t — S; 
"D | wR q E qai (15-29) 
0 否则 


这 些 值 在 可 观测 马尔 科 夫 模型 情况 下 为 0/1， 而 在 HMM 情况 下 为 隐 随 机 变量 。 在 后 
一 种 情况 下 ， 在 玉 步 对 其 进行 估计 ; 
E| et | =y Qi) 
E[2,] =c 
在 M 步 ， 给 定 这 些 估计 值 ， 计 算 参 数 。 从 S; 到 S 的 转移 的 期 望 数 为 DEG). TAS, 


转移 的 总 数 为 Diy @ 。 这 两 个 数值 的 比值 给 出 了 任意 时 刻 从 状态 S; 转 移 到 S 的 概率 : 


T—1 
S&C, j) 
p (15-31) 


(15-30) 


A 


注意 ,除了 将 实际 的 计数 替换 为 估计 的 软 计数 外 ， 上 式 与 式 (15-9) 是 一 样 的 。 
在 状态 S 观测 "的 概率 为 系统 处 于 状态 S 时 观测 v. 的 期 望 次 数 除 以 系统 处 于 状态 S 
B xa AL. 


^ 


b, Cm) = 


J 


T 
5 IG, = a) 
—— (15-32) 
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当 有 多 个 观测 序列 X={O4} 入 ,时 ， 我 们 假定 它们 是 相互 独立 的 ， 
中 
参数 在 全 部 序列 的 所 有 观测 上 取 平 均 : i 


一 二 一 一 (15-33) 


> 


y: CO1CQQ1 = wa) 


K 7, 
-] 


b, (m) =U 





15.8 连续 观测 
在 我 们 的 讨论 中 ， 我 们 假定 离散 的 观测 服从 多 项 式 分 布 : 


M 
P(O,|g, = S432 = [[ 5, Gn) (15-34) 
m=1 


其 中 
gai See (15-35) 
0 否则 
如 果 输 入 是 连续 的 ， 一 种 方法 是 将 其 离散 化 ， 然 后 使 用 这 些 离散 值 作为 观测 值 。 通 常 
使 用 向 量 量化 (7. 3 节 )， 将 连续 值 转换 为 最 接近 的 参考 向 量 的 离散 值 索 引 。 例 如 ， 在 语音 
识别 中 ， 一 个 单词 发 音 被 分 割 为 小 的 语音 片段 ， 对 应 于 音素 或 部 分 音素 。 预 处 理 后 ， 这 些 
片段 通过 向 量 量化 被 离散 化 ， 然 后 使 用 HMM 将 一 个 单词 的 发 音 建 模 为 一 个 离散 化 片段 的 
序列 。 
我 们 还 记得 用 于 向 量 量化 的 & 均 值 是 高 斯 混合 模型 的 一 个 硬 版 本 : 


L 
pCO; |e, = S14) = 5 PCG) pCO, e, — 8,468,422 (15-36) 
l=] 


其 中 
pO, lgi = S;,,G,.22 一 Nu X (15-37) 
并 且 观 测 保持 连续 性 。 在 这 种 高 斯 混合 情况 下 ， 可 以 为 分 量 参数 ( 以 合适 的 正则 化 来 保持 
对 参数 个 数 进 行 检 验 ) 和 混合 比例 推导 出 EM 方程 (Rabiner 1989), 
现在 我 们 看 看 观测 为 连续 标量 的 情形 ，O,E Km。 最 简单 的 方法 是 假定 其 服从 正 态 
分 布 : 
PCO, lge = SA) ~ N Cu; 907) (15-38) 
这 意味 着 在 状态 S;. WHR ABA wn. FHA o; 的 正 态 分 布 。 在 这 种 情况 下 ，M 步 的 
BHA : 
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GO, 
"C Nn 


^y. GXO, — a» 


4 5 
y 


(15-39) 


gi = 


15.9 HMM 作为 图 模型 


我 们 在 第 14 章 讨论 了 图 模型 ， 而 隐 马 尔 可 夫 模 型 也 可 以 描述 为 一 个 图 模型 。3 个 连续 
的 状态 g,-;:、9,-1、4q: 对 应 于 一 阶 马尔 可 夫 模 型 中 链 上 的 3 个 状态 。 时 刻 t 的 状态 q DURER 
于 时 刻 t 一 1 的 状态 qas. HERE qois q ARE qc 
Pq, 193154) = PG. lg) 
与 状态 转移 矩阵 A 所 给 出 的 一 样 (参见 图 15-5) 。 每 个 隐藏 变量 产生 一 个 观测 的 离散 观测 
值 ， 与 观测 概率 矩阵 吾 所 给 出 的 一 样 。 本 章 讨 论 的 隐 马 尔 科 夫 模 型 的 正 反 回 过 程 是 14.5 
节 讨 论 的 信念 传播 的 一 个 应 用 。 


A=P (q'\q""') 
| 


q 






=P (q') 
B=P (O'"/7') 


图 15-5 隐 马 尔 科 夫 模 型 可 以 绘制 成 图 模型 ， 其 中 gq' 是 隐藏 状态 ， 而 带 阴影 的 O' 是 观测 的 状态 


继续 图 形式 化 的 讨论 ， 不 同类 型 的 HMM 可 以 设计 和 描绘 成 不 同 的 图 模型 。 图 15-6a 
显示 了 一 个 输入 -输出 HMM， 它 有 两 个 独立 的 观测 输入 -输出 序列 ， 并 且 还 有 一 个 隐藏 状 
态 序列 (Bengio 和 Frasconi 1996), 。 在 某 些 应 用 中 就 是 这 种 情况 ， 也 就 是 说 ， 除 了 观测 序 
列 O, 之 外 ， 还 有 一 个 输入 序列 x,， 并 且 我 们 知道 观测 也 依赖 于 输入 。 在 这 种 情况 下 ， 我 
们 把 观测 O RERS S MAr E, HWRE P(O,1g, 二 S$S;，z,)。 例 如 ， 当 观测 为 数值 
时 ， 我 们 用 一 个 广义 模型 奉 换 式 (15-38) : 
PCO, [q, = 8; 5294) ~ WCE Ma 18; 207) (15-40) 
其 中 ， 假 定 取 线 性 模型 ， 则 有 : 
g; x |w; wj) = wma + wy (15-41) 
如 果 观 测 是 离散 的 和 多 项 式 的 ， 则 得 到 一 个 将 x' 作 为 输入 并 产生 M 选 1(1-of-M) 输 出 
的 分 类 上 器， 否则 产生 后 验 类 概率 并 保持 观测 的 连续 性 。 
类 似 地 ， 状 态 转移 概率 也 可 以 以 输 人 为 条 件 ， 即 PCa =S ld,=Si，z)， 这 可 以 通 
过 一 个 选择 将 t 十 1 时 刻 的 状态 作为 上 时 刻 状 态 和 输入 的 天 数 的 分 类 器 来 实现 。 这 就 是 马尔 
科 夫 混合 专家 模型 (markov mixture of expert) (Meila 和 Jordan 1996), 并且 是 混合 专家 结 
构 的 一 般 化 (参见 12.8 节 )， 其 中 门 控 网 络 跟踪 其 在 前 一 时 间 步 所 做 的 决策 。 其 优点 是 ， 
模型 不 再 是 齐 次 的 ; 在 不 同 的 时 间 步 使 用 不 同 的 观测 和 转移 概率 。 仍 然 可 以 对 每 个 状态 使 
用 一 个 由 0 参数 化 的 单一 模型 ， 但 是 根据 所 看 到 的 输入 产生 不 同 的 转移 或 观测 概率 。 可 能 
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输入 并 不 是 单 值 ， 而 是 围绕 时 刻 i 的 一 个 窗口 ， 使 输入 是 一 个 向 量 ,， 这样 可 以 处 理 输入 和 
观测 序列 具有 不 同 长 度 的 应 用 。 

即使 没有 其 他 显 式 的 输入 序列 ， 也 可 以 通过 某 种 以 前 观测 的 指定 函数 

2, = FAO, OL 
产生 一 个 “输入 ”来 使 用 带 有 输入 的 HMM， 从 而 提供 一 个 大 小 为 c 的 背景 输入 窗口 。 

另 一 类 可 以 很 容易 可 视 化 的 HMM 是 因子 HMM(factorial HMMD, ， 它 有 多 个 独立 的 
隐藏 序列 相互 作用 生成 单个 观测 序列 。 一 个 例子 是 显示 亲子 关系 的 谱系 (Jordan 2004), 
图 15-6b 对 减 数 分 列 建 模 ， 其 中 两 个 序列 对 应 于 父亲 和 母亲 的 染色 体 ( 它 们 是 独立 的 )， 并 
在 每 个 点 (基因 )， 后 代 从 父亲 接收 一 个 等 位 基因 ， 而 男 一 个 等 位 基因 来 自 母 亲 。 

#84 HMM(coupled HMM) 显 示 在 图 15-6c 中 ， 它 对 生成 两 个 并 行 观测 序列 的 两 个 并 
行 而 又 相互 作用 的 隐藏 序列 建 模 。 例 如 ， 在 语音 识别 中 ， 可 能 有 一 个 读 词 声音 的 观测 序列 
和 一 个 层 动 图 像 的 视频 序列 ， 各 有 其 隐藏 状态 ， 两 者 是 依赖 的 。 

在 图 15-6d 的 开关 HMM 中 ， 有 K 个 并 行 的 、 独 立 的 隐藏 状态 序列 ， 而 状态 变量 S 
在 任何 时 刻 都 选择 其 中 之 一 ， 并 且 选 中 的 那个 产生 输出 。 也 就 是 说 ， 随 着 前 进 ， 在 状态 序 
列 之 间 切 换 。 





c) 耦合 HMM d) 开关 HMM 


图 15-6 不 同类 型 的 HMM 对 观测 数据 (阴影 显示 ) 被 潜在 变量 的 马尔 可 夫 序 列 生成 方式 的 不 同 假设 建 模 


在 HMM 中 ， 尽 管 观测 可 以 是 连续 的 ， 但 是 状态 变量 是 离散 的 。 在 线性 动态 系统 (lin- 
ear dynamical system) 中 ， 状 态 和 观测 都 是 连续 的 。 线 性 动态 系统 也 称 为 卡尔 曼 滤 波 器 
(Kalman filter) 。 在 基本 情况 下 ， 时 刻 : 上 的 状态 是 时 刻 : 上 一 1 RA MARE PR A E SY fL 
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高 斯 噪声 。 而 在 每 个 状态 ， 观 测 是 状态 的 另 一 个 线性 函数 加 上 和 零 均 值 的 高 斯 噪声 。 两 个 线 
性 映射 和 两 个 噪声 源 的 协 方差 组 成 参数 。 我 们 先前 讨论 的 所 有 HMM 的 变 体 都 可 以 类 似 地 
推广 到 使 用 连续 状态 。 

通过 适当 地 修改 图 模型 ， 可 以 使 结构 与 产生 数据 过 程 的 特点 相 适 应 。 这 种 把 模型 与 数 
据 匹 配 的 过 程 是 最 佳 权 衡 偏 丛 和 方差 的 模型 选择 过 程 。 缺 点 是 ， 在 这 种 扩展 的 HMM E, 
精确 推断 或 许 不 再 可 能 ， 而 需要 近似 或 抽样 方法 (Ghahramani 2001; Jordan 2004). 


15.10 HMM 中 的 模型 选择 


与 任意 其 他 模型 一 样 ， 需 要 调整 HMM， 使 复杂 度 与 面 对 的 数据 的 规模 和 性 质 平 衡 。 
一 种 可 能 的 方法 是 调整 HMM 的 拓扑 。 在 完全 连接 (遍历 ) 的 HMM 中 ， 从 一 个 状态 可 转 
移 到 任意 其 他 状态 ， 使 得 A 是 一 个 N XN 的 全 和 矩阵。 在 一 些 应 用 中 ， 仅 允许 某 些 转移 ， 
而 不 允许 的 转移 有 ay 二 0。 当 可 能 的 下 一 个 状态 较 少 ( 即 N 过 N) 时 ， 正 反 向 扫描 和 Viterbi 
过 程 的 复杂 度 为 0(NN'T)， 而 不 是 O(N?*T)， 

例如 ， 在 语音 识别 中 ,使 用 自 左 向 右 HMMCleft-to-right HMM)， 其 中 系统 状态 按时 
间 排 序 ， 随 着 时 间 的 推进 ， 状 态 下 标 增加 或 保持 不 变 。 这 样 的 约束 可 用 来 对 性 质 随时 间 变 
化 的 序列 (如 语音 ) 进 行 建 模 ， 并 且 当 到 达 一 个 状态 时 ， 我们 近似 地 知道 其 前 的 状态 。 有 一 
个 性 质 : 系统 绝 不 向 具有 更 小 下 标的 状态 转移 ， 即 对 于 j 二 i 有 a; 二 0。 而 在 状态 下 标 上 跨 
度 很 大 的 状态 转移 也 不 允许 ， 即 对 于 jid r4 a,-—0,. B 15-7 给 出 了 自 左 向 右 HMM 的 
一 个 例子 ， 其 中 r* 王 2， 状 态 转移 矩阵 为 : 


A = 


jj Qi? diz 
0 422 433 
0 0 33 
0 0 0 





a 
a 
a 


图 15-7 上 自 左 向 在 HMM 的 例子 


决定 HMM 复杂 度 的 另 一 因素 是 状态 的 个 数 N。 因 为 状态 是 隐藏 的 ， 所 以 其 个 数 未 知 
并 且 应 该 在 训练 前 选 定 。 这 需要 使 用 先 验 信息 对 其 进行 决定 ， 并 通过 交叉 验证 ， 即 通过 检 
查验 证 序列 的 似 然 ， 进 行 微调 。 

当 用 于 分 类 时 ， 可 使 用 一 组 HMM， 每 个 HMM 对 属于 一 个 类 的 序列 进行 建 模 。 例 
如 ， 在 口语 单词 识别 中 ， 每 个 单词 的 样本 训练 一 个 不 同 的 模型 4;。 当 对 新 的 单词 发 音 O 进 
行 分 类 时 ， 所 有 不 同 的 单词 模型 都 被 用 来 计算 PCO1X;)。 然 后 使 用 贝 叶 斯 规则 得 到 后 验 
概率 : 


T, 





P(O\A,) PA) 
2;,P(O]A) PO) 
其 中 PG;) 是 单词 i 的 先 验 概率 。 该 发 音 被 指派 到 具有 最 高 后 验 概率 的 单词 。 这 是 基于 似 
然 的 方法 ， 还 存在 直接 训练 有 判别 力 的 HMM， 以 便 最 大 化 后 验 概率 的 工作 。 当 存在 同一 


P(A; |0) = (15-42) 
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单词 的 多 种 发 音 时 ， 它 们 在 该 单词 的 HMM 中 被 定义 为 并 行路 径 。 

在 像 语 音 这 样 的 连续 输入 的 情况 下 ， 困 难 之 处 在 于 将 信号 分 割 为 较 小 的 离散 观测 。 通 
常 使 用 取 作 基 元 部 分 的 音素 ， 并 组 合 它 们 形成 更 长 的 序列 (例如 ， 单 词 )。 每 个 音素 (通过 
向 量 量 化 ) 被 并 行 地 识别 ， 然 后 用 HMM 将 它们 顺序 组 合 。 如 果 语 音 基 元 简单 ， 则 HMM 
会 比较 复杂 ， 反 之 亦 然 。 在 连续 语音 识别 中 ， 单 词 并 非 一 个 接 一 个 地 以 清晰 闻 隔 进行 发 
音 ， 这 时 可 以 采用 多 层 的 层次 HEMM。 一 层 用 于 组 合 音素 以 识别 单词 ， 另 一 层 通过 建立 语 
言 模型 对 单词 组 合 以 识别 语句 ， 等 等 。 

神经 网 络 /HMM 混合 模型 也 用 于 语音 识别 (Morgan 和 Bourlard 1995)。 在 这 样 的 模型 
中 ， 一 个 多 层 感知 器 (第 11 章 ) 用 于 捕获 时 间 局 部 但 可 能 是 比较 复杂 和 非 线性 的 基 元 (如 音 
素 )， 而 HMM 用 于 学 习 时 间 结 构 。 神 经 网 络 作为 预 处 理 希 ， 将 时 间 窗 口中 的 原始 观测 转 
换 成 比 向 量 量 化 的 输出 更 容易 建 模 的 形式 。 

HMM 可 以 看 作 一 种 图 模型 ， 而 HMM 中 的 估计 可 以 看 作 第 14 章 讨论 的 信念 传播 算 
法 的 一 个 特例 。 专 门 写 HMM 这 一 章 ， 因 为 这 种 特定 模型 具有 广泛 和 成 功 的 应 用 ， 特 别 是 
在 自动 语音 识别 领域 。 但 是 ， 正 如 15.9 节 所 讨论 的 ， 基 本 HMM 结构 可 以 扩展 ， 例 如 ， 
通过 有 多 个 序列 ， 或 通过 引入 隐藏 (潜在 ) 变 量 ， 来 扩展 基本 HMM 结构 。 

在 第 16 章 中 ， 我 们 将 讨论 贝 叶 斯 方法 ， 并 在 16.8 节 讨 论 非 参数 贝 叶 斯 方法 ， 该 方法 
随 着 更 多 的 数据 到 达 ， 模 型 的 结构 可 以 变 得 越 来 越 复 杂 。 它 的 一 种 应 用 是 无 限 HMM(infi- 
nite HMM)(Beal, Ghahramani 和 Rasmussen 2002) 。 


15.11 注释 


HMM 是 一 项 成 熟 的 技术 ， 并 且 基 于 HMM 的 商业 语音 识别 系统 已 投入 实际 使 用 
(Rabiner 和 Juang 1993; Jekinek 1997), 7£ 11. 12 节 ， 我 们 讨论 了 如 何 训 练 多 层 感 知 器 用 
于 序列 识别 。 与 延迟 神经 网 络 相 比 ，HMM 的 优点 在 于 不 用 事先 定义 时 间 窗 口 ， 并 且 
HMM 的 训练 效果 优 于 递归 神经 网 络 。HMM 可 以 应 用 于 各 种 序列 识别 任务 。HMM 在 生 
物 信息 领域 的 应 用 在 Baldi 和 Brunak 1998 中 有 介绍 ， 在 自然 语音 处 理 的 应 用 在 Manning 
fll Schutz 1999 中 有 介绍 。HMM 也 用 于 在 线 手 写 符 号 识别 ， 它 与 于 光学 识别 的 不 同 之 处 
在 于 书写 者 在 触觉 感知 的 书写 板 上 书写 ， 并 且 输 入 是 笔尖 在 书写 板 上 移动 的 (z，y) 坐 标 序 
列 ， 而 不 是 静态 的 图 像 。Bengio 等 (1995) 介 绍 了 一 种 用 于 在 线 识 别 的 混合 系统 ， 其 中 
MLP 识别 单个 字符 ， 而 HMM 将 字符 组 合 来 识别 单词 。Bengio 1999 讨论 了 HMM 的 各 种 
应 用 和 多 种 扩展 ， 例 如 有 判别 力 的 EMM。 一 个 关于 HMM 可 以 做 什么 和 不 能 做 什么 的 综 
述 在 Bilmes 2006 中 ， 

在 任何 识别 系统 中 ， 一 个 关键 点 在 于 决定 多 少 工作 并 行进 行 以 及 将 什么 工作 留 做 串 行 
处 理 。 在 语音 识别 中 ， 音 素 可 通过 一 个 并 行 系统 来 识别 ， 这 相当 于 假定 所 有 的 音素 声音 后 
时 发 出 。 然 后 ， 通 过 组 合 音素 串 行 地 识别 单词 。 在 另 一 种 系统 中 ， 如 果 相 同 的 音素 有 多 个 
版 本 ， 比 如 依赖 于 之 前 和 之 后 的 音素 ， 则 音素 本 身 可 设计 为 更 简单 的 语音 发 声 序 列 。 并 行 
工作 是 好 的 ， 但 仅仅 是 在 一 定 程度 上 上。 我们 应 当 在 并 行 和 串 行 处 理 之 间 找 到 理想 的 平衡 。 
为 了 可 以 一 键 式 接 通 任何 人 的 电话 ， 我 们 可 能 需要 电话 上 有 百 万 个 按键 。 作 为 替代 ， 我 们 
有 10 个 按键 并 以 顺序 方式 拨号 。 

我 们 在 第 14 章 讨 论 了 图 模型 。 我 们 知道 HMM 可 以 看 作 一 类 特殊 的 图 模型 ， 并 且 
HMM 上 的 推断 和 学 习 操 作 类 似 于 贝 叶 斯 网 络 上 的 对 应 操作 (CSmyth，Heckerman 和 Jor- 
dan 1997)。 正 如 我 们 稍 后 就 会 看 到 的 ，HMM 有 多 种 扩展 ， 如 因子 HMM (factorial 
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HMM)， 该 方法 在 每 一 时 间 步 ， 有 许多 共同 生成 观测 的 状态 ; #27 HMM (tree-struc- 
tured HMMD, ， 它 有 状态 的 层次 关系 。 通 用 的 形式 化 机 制 使 我 们 可 以 处 理 连 续 状 态 和 离散 
状态 ， 称 作 线 性 动态 系统 (linear dynamical system) 。 对 于 这 类 模型 中 的 某 些 ， 不 可 能 做 精 
确 推 新 ， 而 需要 近似 或 抽样 方法 (Ghahramani 2001), 

实际 上 上， 任何 图 形 模型 都 可 以 通过 展开 并 增加 连续 拷贝 之 间 的 依赖 性 来 扩展 。 事 实 
上 ， 隐 马尔 可 夫 模 型 只 不 过 是 一 个 聚 类 问题 的 序列 ， 其 中 时 刻 t BU pus DC T ET Za] 
t 的 观测 ， 也 依赖 于 时 刻 t 一 1 的 标志 ; 而 Baum-Welch 算法 是 期 望 最 大 化 的 扩展 ， 也 包括 
这 种 时 间 依 赖 性 。 在 6. 5 节 ， 我 们 讨论 了 因子 分 析 ， 其 中 少数 隐藏 因子 产生 了 观测 。 类 似 
地 ， 线 性 动态 系统 可 以 看 作 这 种 因子 分 析 
模型 的 序列 ， 其 中 当前 的 因子 也 依赖 于 以 


cr c 
前 的 因子 。 
m. Mi. Fs 对 特定 一 天 的 浊音 地 OP OD 
原因 建 模 。 如 果 我 们 相信 昨天 的 天 气 对 今 

e & 


天 的 天 气 有 影响 (并 且 我 们 应 该 相信 会 连 
续 几 天 阴 天 ， RARER, FF), MR 


AA 15-8 AeA, iss RAMEE, EERIE 
x * 人 9- ^S A mn , j : | 一 个 
那里 我 们 对 这 种 依赖 性 建 模 。 图 链 ， 显 示 连 续 几 天 天 气 的 依赖 性 


15.12 ”习题 


1. 给 定 一 个 有 3 个 状态 Si, SA S; 的 可 观测 马尔 可 夫 模 型 ， 其 初始 概率 为 : 
I= (0. 5,0. 2,0.3]" 
转移 概率 为 : 


A= |0.2 0.6 0.2 


区 0.3 0.3 
OL Ql Qs 





产生 100 个 有 1000 个 状态 的 序列 。 
2. 使 用 上 题 中 产生 的 数据 来 估计 五 和 A， 并 与 产生 这 些 数 据 的 参数 进行 比较 。 
3. 形式 化 地 描述 一 个 二 阶 马尔 可 夫 模 型 。 其 参数 是 什么 ” 如何 计 算 一 个 给 定 的 状态 序列 

的 概率 ?对 于 一 个 可 观测 模型 如 何 学 习 参 数 ? 

aj = P(qus = Silqua = Sj,g, = S) 
初始 状态 概率 定义 第 一 个 状态 的 概率 ; 
x; = P(q, = S) 
给 定 第 一 个 状态 ， 我 们 还 需要 参数 来 定义 第 二 个 状态 的 概率 : 
0; = P(q = S; |q = S) 
给 定 具 有 参数 4 二 (I，6@，A) 的 二 阶 可 观测 MM， 观 测 状态 序列 的 概率 是 : 
PO = QA? =P(qi) P(g: | au) | | PCa: laeit) 


= a a wong 
Tq, Orza, 93929 "744444; qT4T—194T—2 


概率 估计 为 比例 : 
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> lta = S) 
& 二 一 一 二 一 一 
A. a LÁ 
ij >i = S) 

k 
T 

a, » fg — S, E qa = S; H qt = S) 
A k t=3 
Go S -~ = 


b » 1h = S; H qie = S) 
. 证 明 任意 二 阶 (或 更 高 阶 ) 马 尔 可 夫 模 型 都 可 以 转化 为 一 个 一 阶 马 尔 可 夫 模 型 。 
f: 在 二 阶 模型 中 ， 每 个 状态 都 依赖 于 前 两 个 状态 。 我 们 可 以 定义 一 个 新 的 状态 
集 ， 它 对 应 于 原始 状态 集 与 自身 的 笛 卡 儿 积 。 定 义 在 六 个 新 状态 上 的 一 阶 模型 对 应 于 
定义 在 NN 个 原始 状态 上 的 二 阶 模型 。 441] 

. 有 些 研 究 者 将 马尔 可 夫 模 型 定义 为 当 穿越 一 条 弧 而 没有 到 达 一 个 状态 时 产生 一 个 观测 。 

这 种 模型 的 能 力 是 否 比 我 们 讨论 的 模型 更 强 ? 
fg: 类 似 于 上 一 题 ， 如 果 输 出 不 仅 依赖 于 当前 状态 ， 而 且 还 依赖 于 下 一 状态 ， 则 
我 们 可 以 定义 新 状态 对 应 于 这 种 状态 对 ， 并 且 让 输出 由 这 个 (联合 ) 状 态 产 生 。 

. 从 一 个 你 选择 的 HMM 产生 训练 和 验证 序列 。 在 相同 的 训练 集 上 通过 变化 隐藏 状态 的 
个 数 来 训练 多 个 不 同 的 HMM 并 计算 相应 的 验证 似 然 。 观 察 验证 似 然 如 何 随 着 状态 个 
数 的 增加 而 变化 。 

. 在 式 (15-38) 中 ， 如 果 我 们 有 多 元 观测 ， 那 么 M 步 的 方程 是 什么 ? 

解 : 如 果 我 们 有 a 维 0, ER"， 抽 取 自 具有 它们 的 均值 向 量 和 协 方差 矩阵 的 a 元 
高 斯 
pO lg, = S; A) ~ N (uE) 


WW M 步 的 方程 为 
Sr. G0, 
"CC y 
SGXO — p;)(O, — p;)" 
X, == 
245nGQ 


8. 考虑 容 右 - 球 的 例子 。 如 果 我 们 不 放 回 抽取 ， 那 么 会 有 何不 同 ? 
解 : 如 果 我 们 不 放 回 抽取 ， 则 在 每 次 迭代 中 ， 球 的 数量 改变 ， 这 意味 着 观测 概率 B 
改变 。 我 们 将 不 再 有 齐 次 模型 。 
9. 假定 在 任意 时 刻 我 们 都 有 两 个 来 自 不 同 字 母 表 的 观测 。 例 如 ， 我 们 每 天 观测 两 种 货币 
的 币值 。 如 何 使 用 HMM 实现 ? 
f. 在 这 种 情况 下 ， 一 个 隐藏 状态 产生 两 个 不 同 的 观测 。 也 就 是 说 ， 我 们 有 两 个 
B， 每 个 用 自己 的 观测 序列 训练 。 然 后 ， 需 要 组 合 这 两 个 观测 来 佑 计 A M r. 
10. 如 何 得 到 增 量 HMM? 增 量 HMM 人 允许 在 必要 时 增加 新 的 隐藏 状态 。 


254 第 15 =F 


解 : 这 又 是 状态 空间 搜索 。 我 们 的 目标 可 以 是 最 大 化 验证 集 上 的 对 数 似 然 ， 以 及 
一 个 可 以 让 我 们 添加 隐藏 状态 的 操作 。 然 后 ， 我 们 做 向 前 搜索 。 对 于 图 模型 的 更 一 般 
442 的 情况 ， 存 在 结构 学 习 算法 ， 这 些 我 们 已 在 第 14 章 中 讨论 过 。 


15. 13 参考 文献 


Baldi, P., and S. Brunak. 1998. Bioinformatics: The Machine Learning Approach. 
Cambridge, MA: MIT Press. 


Beal, M. J., Z. Ghahramani, and C. E. Rasmussen. 2002. “The Infinite Hidden 
Markov Model.” In Advances in Neural Information Processing Systems 14, ed. 
T. G. Dietterich, S. Becker, and Z. Ghahramani, 577-585. Cambridge, MA: MIT 
Press. 


Bengio, Y. 1999. "Markovian Models for Sequential Data." Neural Computing 
Surveys 2: 129-162. 


Bengio, Y., and P. Frasconi. 1996. "Input-Output HMMs for Sequence Process- 
ing." IEEE Transactions on Neural Networks 7:1231-1249. 


Bengio, Y., Y. Le Cun, C. Nohl, and C. Burges. 1995. "LeRec: A NN/HMM Hybrid 
for On-line Handwriting Recognition." Neural Computation 7:1289-1303. 


Bilmes, J. A. 2006. "What HMMs Can Do.” IEICE Transactions on Information 
and Systems E89-D:869-891. 


Ghahramani, Z. 2001. "An Introduction to Hidden Markov Models and Bayesian 
Networks." International Journal of Pattern Recognition and Artificial Intelli- 
gence 15:9-42. 


Jelinek, F. 1997. Statistical Methods for Speech Recognition. Cambridge, MA: 
MIT Press. 


Jordan, M. I. 2004. "Graphical Models." Statistical Science 19:140-155. 


Manning, C. D., and H. Schütze. 1999. Foundations of Statistical Natural Lan- 
guage Processing. Cambridge, MA: MIT Press. 


Meila, M., and M. I. Jordan. 1996. "Learning Fine Motion by Markov Mixtures 
of Experts." In Advances in Neural Information Processing Systems 8, ed. 
D. S. Touretzky, M. C. Mozer, and M. E. Hasselmo, 1003-1009. Cambridge, 
MA: MIT Press. 


Morgan, N., and H. Bourlard. 1995. "Continuous Speech Recognition: An Intro- 
duction to the Hybrid HMM/Connectionist Approach." IEEE Signal Processing 
Magazine 12:25-42. 


Smyth, P., D. Heckerman, and M. I. Jordan. 1997. "Probabilistic Independence 
Networks for Hidden Markov Probability Models." Neural Computation 9:227- 
269. 


Rabiner, L. R. 1989. "A Tutorial on Hidden Markov Models and Selected Appli- 
cations in Speech Recognition." Proceedings of the IEEE 77:257-286. 


Rabiner, L. R., and B. H. Juang. 1986. "An Introduction to Hidden Markov 
443 Models." IEEE Acoustics, Speech, and Signal Processing Magazine 3:4-16. 


Rabiner, L. R., and B. H. Juang. 1993. Fundamentals of Speech Recognition. New 
444 York: Prentice Hall. 


| 第 16 章 


Introduction to Machine Learning, Third Edition 


贝 叶 斯 估计 





在 贝 叶 斯 方法 中 ， 把 参数 看 作 具 有 茶 种 分 布 的 随机 变量 ， 人 允许 我 们 估计 它们 ， 对 不 确 
定性 建 模 。 我 们 继续 4.4 节 的 讨论 ， 并 讨论 如 何 估计 分 布 的 参数 和 回归 、 分 类 、 聚 类 或 维 
度 归 约 模型 的 参数 。 我 们 还 将 讨论 非 参 数 贝 叶 斯 建 模 ， 该 模型 的 复杂 度 不 是 固定 的 ， 而 是 
取决 于 数据 。 


16.1 引言 


贝 叶 斯 估计 (我 们 在 4. 4 节 介 绍 过 ) 将 参数 9 看 作 一 个 具有 某 种 概率 分 布 的 随机 变量 。 
我 们 在 4. 2 节 讨 论 的 最 大 似 然 估 计 方 法 把 参数 看 作 未 知 和 常数。 例如， 如 果 我 们 要 估计 的 参 
数 是 均值 yx， 则 它 的 最 大 似 然 估计 是 样本 平均 值 X。 我 们 在 训练 集 上 计算 X， 将 它 代入 模 
型 ， 并 使 用 它 做 分 类 等 。 然 而 ， 我们 知道 ， 尤 其 是 具有 小 样本 时 ， 最 大 似 然 估计 可 能 是 很 
差 的 估计 并 具有 方差 一 一 随 着 训练 集 的 变化 ， 可 能 计算 出 不 同 的 X 值 ， 从 而 导致 具有 不 
同 泛 化 准确 率 的 不 同 判 别 式 。 

在 贝 叶 斯 估计 中 ， 利 用 估计 0 具有 不 确定 性 这 一 事实 ， 不 是 估计 单个 bm ， 而 是 通过 
估计 分 布 p(9|X)， 加 权 使 用 所 有 的 9。 也 就 是 说 ,我 们 分 摊 估 计 9 的 不 确定 性 。 

在 估计 p(9|X) 时 ， 可 以 利用 我 们 可 能 具有 的 、 关 于 参数 值 的 先 验 信息 。 当 我 们 有 
小 样本 时 (并 且 当 最 大 似 然 估计 的 方差 高 时 )， 这 样 的 先 验 知识 尤其 重要 。 在 这 种 情况 
下 ， 我 们 感 兴趣 的 是 ， 把 数据 告诉 我 们 的 ( 即 由 样本 计算 的 值 ) 与 我 们 的 先 验 信息 结合 
一 起 。 正 如 我 们 在 4.4 节 讨论 的 ， 我 们 使 用 先 验 概率 (prior probability) 分 布 对 这 种 信息 
编码 。 例 如 ， 在 审视 样本 来 估计 均值 之 前 ， 我们 可 能 有 某 种 先 验 ， 知 道 均值 接近 2， 在 
1 一 3 之 间 。 在 这 种 情况 下 ， 我 们 以 这 样 一 种 方式 给 出 如 (wx) ， 使 得 密度 的 主要 部 分 位 于 
KEL, 3]. 

使 用 贝 叶 斯 规则 ， 我 们 把 先 验 与 似 然 结合 在 一 起 ， 并 计算 后 验 概 率 (posterior proba- 
bility) 分 布 : 


5l = pep eX ID (16-1) 


这 里 ，p(0) 是 先 验 密度 ， 它 是 我 们 在 考察 样本 之 前 就 知道 的 9 的 可 能 取 值 。p (X10) 是 样 
本 似 然 (sample likelihood)， 它 告诉 我 们 如 果 分 布 的 参数 取 该 02 值 ， 样 本 X 出 现 的 可 能 有 多 
大 。 人 例如， 如果 样本 中 的 实例 在 5 一 10 Ziel, IBAA yx 为 7 则 这 种 样本 是 可 能 的 ， 但 是 如 
果 风 为 3 则 不 大 可 能 ， 而 六 为 1 则 更 不 可 能 。 分 母 中 的 p(X) 是 规范 化 子 ， 确保 后 验 
p(0|X) 的 积分 等 于 1。p(9|X) 称 为 后 验 概率 ， 因 为 它 告诉 我 们 在 看 到 样本 之 后 9 取 特 定 
值 的 可 能 性 有 多 大 。 贝 叶 斯 规则 取 先 验 分 布 ， 把 它 与 数据 揭示 的 信息 结合 在 一 起 ， 并 产生 
后 验 分 布 。 然 后 ， 在 稍 后 的 推断 中 使 用 这 个 后 验 分 布 。 

假设 有 从 某 个 具有 未 知 参 数 9 的 分 布 中 提取 的 旧 样 本 X= 二 {x')2!1。 然 后 ， 可 以 再 抽取 
一 个 实例 x ， 并 且 想 计算 它 的 概率 分 布 。 我 们 可 以 把 这 可 视 化 地 表示 为 一 个 图 模型 (参见 
第 14 章 )， 如 图 16-1 所 示 。 这 里 所 显示 的 是 一 个 生成 模型 (generative model) ， 它 表示 数 
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据 如 何 生 成 : 首先 由 p(0) 选 0， 然后 从 p(x19) 抽 样 产生 训练 实例 x ， 再 产生 新 的 测试 实 
例 x’. 

我 们 把 联合 概率 表示 成 

给 定 样 本 X， 我 们 能 够 用 它 估计 新 实例 z 的 概率 分 布 : 


p(X) BOO pix) 
=| px" I pco x) db (16-2) 


在 计算 pCO| xo Bp, D uF Op BLM fo T p(0) 
逆转 弧 的 方向 并 做 诊断 推理 。 然 后 ， 推 断 
出 的 (后 验 ) 分 布 用 来 对 新 的 x 导出 预测 o 
分 布 。 

我 们 看 到 ， 我 们 的 估计 是 2 的 所 有 可 
能 估计 值 的 加 权 和 (如 果 0 是 离散 值 ， 则 ， 


用 >) 替换 | qa) ， 权 重 是 给 定 样本 X 下 6 o o 


的 可 能 性 。 
这 是 全 贝 叶 斯 方法 (full Bayesian 
treatment), 。 如 果 后 验 概 率 不 容易 求 积 图 16-1 生成 图 模型 (参见 第 14 章 )。 弧 是 抽样 方 


分 ， 则 这 样 做 或 许 不 可 能 。 正 如 我 们 在 向 。 首 先 由 p(9) 选 9， 然后 从 p(xz19) 中 
4.4 节 看 到 的 ， 在 最 大 后 验 (Maximum A ee ee oe 
» P x 3 9 Ell i i b = 9 / 
Posteriori, MAP) 估计 中 ， 使 用 后 验 的 例 z' 独 立地 抽取 。 这 是 独立 同 分 布 假设 。 
AX XX: 如 果 9 是 未 知 的 ， 则 它们 是 依赖 的 。 使 用 
Omap = arg max p (0| X2 贝 叶 斯 规则 由 过 去 的 实例 推 新 2， 然后 用 

它 推断 新 的 a^ 


E fuas |X) = pG' | Omar) 
MAP 4h +b Xt V T 4B XE Jes RERA A CIRKO BASE bl x AR EY RE, NFR KG pO 
所 有 的 0 上 是 均匀 的 ， 则 后 验 pCO| ORRA MR p Cx 100 的 众 数 在 同一 个 点 ， 并 且 
MAP 估计 与 最 大 似 然 (ML) 估 计 相 等 : 
Om = arg max p(X |0) BH $wr | X= pir |O) 


这 说 明 使 用 ML 对 应 于 假定 0 的 不 同 值 之 间 没 有 先 验 分 布 。 

从 根本 上 说 ， 贝 叶 斯 方法 有 两 个 优点 : 

1) 先 验 帮助 我 们 忽略 9 不 太 可 能 取 的 值 ， 并 将 注意 力 集中 到 9 可 能 落 入 的 区 域 。 即 便 
一 个 具有 长 尾 的 弱 先 验 可 能 也 是 非常 有 益 的 。 

2) 不 是 在 预测 时 使 用 单个 9 估计 ， 而 是 生成 可 能 的 9 值 的 集合 (如 被 后 验 定义 的 )， 并 
在 预测 时 全 部 使 用 ， 用 它们 的 可 能 性 加 权 。 

如 果 使 用 MAP 估计 而 不 是 在 9 上 积分 ， 则 利用 第 一 个 优点 而 不 是 第 二 个 。 如 果 使 用 
ML 估计 ， 则 失去 了 这 两 个 优点 。 如 果 使 用 一 个 无 信息 的 (均匀 ) 先 验 ， 则 利用 第 二 个 优点 
而 不 是 第 一 个 。 实 际 上 ， 正 是 第 二 个 优点 而 不 是 第 一 个 ， 使 得 贝 叶 斯 方法 很 有 趣 。 在 第 17 
章 中 ， 我 们 将 讨论 组 合 多 个 模型 的 方法 ,我 们 将 看 到 一 些 非常 类 似 于 贝 叶 斯 但 并 不 总 是 贝 
叶 斯 的 方法 。 
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这 种 方法 可 以 用 于 不 同类 型 的 分 布 和 不 同类 型 的 应 用 。 参 数 9 可 以 是 一 个 分 布 的 参 
数 。 例 如 ， 在 分 类 中 ， 它 可 能 是 未 知 的 类 均值 ， 对 它 定 义 先 验 并 得 到 它 的 后 验 ; 然后 ， 对 
均值 的 每 个 可 能 值 ， 得 到 一 个 不 同 的 判别 式 ， 因 此 贝 叶 斯 方法 将 在 所 有 可 能 的 判别 式 上 取 
平均 。 而 在 ML 方法 中 ， 只 有 一 个 均值 估计 ， 因 :此 只 有 一 个 判别 式 。 

正如 我 们 稍 后 将 看 到 的 ， 未 知 参数 也 可 以 是 一 个 拟 合 模型 的 参数 。 例 如 ， 在 线性 回归 
分 析 中 ， 我们 可 以 在 斜率 和 截 距 参 数 上 定义 一 个 先 验 分 布 并 计算 它们 的 后 验 ， 即 直线 上 的 
分 布 。 然 后 ， 我 们 将 平均 所 有 可 能 直线 的 预测 ， 按 它们 被 它们 先 验 权重 表示 的 可 能 性 和 它 
们 拟 合 给 定数 据 的 好 坏 加 权 。 

贝 叶 斯 估计 饱 受 批 评 的 地 方 之 一 是 计算 式 (16-2) 中 的 积分 。 在 某 些 情况 下 ， 可 以 计算 
它 ， 但 是 大 多 数 情况 下 不 能 计算 它 。 在 这 种 情况 下 ， 我 们 需要 近似 计算 。 在 接 下 来 的 几 节 
中 ， 我 们 将 看 到 一 些 近似 方法 ， 即 拉 普 拉 斯 和 变 分 近似 ， 以 及 马尔 可 夫 链 蒙特 卡 罗 (MC- 
MC) 抽 样 。 

现在 ， 让 我 们 由 简 到 繁 ， 更 详细 地 考察 贝 叶 斯 方法 的 这 些 和 其 他 应 用 


16.2 离散 分 布 的 参数 的 贝 叶 斯 估计 
16.2.1 K22^ 13S: WRITES n 

假定 每 个 实例 都 是 一 个 取 K 个 不 同 状态 之 一 多 项 式 变 量 ( 参 见 4. 2. 2 58). SITUE zi =1, 
如 果实 例 在 状态 i 中 ， 并 且 对 于 任意 (Ai, H=0. SRERAWBS q=La> w ，…， 
ax)", SEP qt qi S0G=1, +, KA 24 = 1. i 

例如 ，z 可 以 对 应 于 新 闻 文 档 ， 状 态 可 以 对 应 于 K 个 不 同 的 新 闻 类 别 ， 体育、 政治 、 
艺术 等 。 于 是 ， 概 率 q; 对 应 于 不 同类 别 新 闻 所 占 的 比例 ， 而 关于 它们 的 先 验 使 得 我 们 可 以 
对 这 些 比 例 的 先 验 编码 。 例 如 ， 我 们 可 以 预料 与 体育 相关 的 新 闻 比 与 艺术 相关 的 新 闻 


更 多 。 
样本 似 然 是 


N K 
boo = [I [l 
t=1 i=l 
q 的 先 验 分 布 是 犹 利克 雷 分 布 (Dirichlet distribution) 


os uH Cao) 
Dirichlet(q|a@) = TGO-- PG o slice" 
其 中 , a—[o s axl’, H a= 2,2 a; 是 先 验 的 参数 ， 称 作 超 参数 (hyperparame- 


ter), T(x) 5 i& H&K (Gamma — XE X. 
T(x) = L ue “du 
0 
给 定 先 验 和 似 然 ， 可 以 导出 后 验 
p(q| x) p(x |q)plqla) oc [|g (16-3) 


其 中 , N = Pu. UTE BUSES FEMA HAL I SBR ATT PA A Se HO ej 


(conjugate prior), 。 先 验 和 似 然 都 是 q RO ERUERUEGR. "p DUBE MASE BUR R 


Tla +N) Tae’ 


pal Xx) Ca; + N,)*ICax + Nx) LL . 


^ = Dirichlet(q|a +n) (16-4) 
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其 中 ， 7 一 [Ni， id Nk]', SIN; = N。 


观察 式 (16-3)， 可 以 得 到 超 参 数 a: 的 一 种 解释 (Bishop 2006), IE a nÆ N 个 样本 中 
状态 i 出 现 的 次 数 一 样 ， 可 以 将 w 看 作 在 ww 个 实例 的 某 个 假想 样本 中 状态 :出 现 的 次 数 。 
在 定义 先 验 时 我 们 主观 地 说 : 在 ww 个 样本 中 ， 我 们 预料 它们 之 中 的 a; 个 属于 状态 1。 注意 ， 
较 大 的 mo 说 明 我 们 对 我 们 的 主观 比例 有 较 高 的 置信 和 度 ( 更 尖 的 分 布 ): 预料 100 次 出 现 中 的 
60 次 属于 状态 1 的 置信 和 度 比 预料 10 次 出 现 中 的 6 次 属于 状态 1 的 置信 和 度 高 。 于 是 ， 后 验 
是 男 一 个 犹 利克 雷 分 布 ， 它 对 分 别 由 先 验 和 似 然 给 定 的 想象 的 和 实际 的 状态 出 现 次 数 
求 和 。 

共 斩 性 具有 很 好 的 含义 。 在 顺序 接收 实例 序列 的 情况 下 ， 因 为 后 验 与 先 验 具 有 相同 的 
形式 ， 所 以 当前 后 验 从 所 有 过 去 的 实例 累积 信息 ， 并 且 成 为 下 一 个 实例 的 先 验 。 


16.2.2 K=2 个 状态 :贝塔 分 布 
当 变 量 是 二 元 的 时 ，x'E (0，1}， 多 项 样本 变 成 伯 努 利 : 
ptx lay = |g i-o 
并 且 儿 利克 雷 先 验 归 约 为 贝塔 分 布 (beta distribution) 


== rla +p) a—l LEY p^ 
beta(q la 9) Malay? (1 —@) 


例如 ，xz' 可 以 是 0 或 1, 分 别 取决 于 大 小 为 N 的 随机 样本 中 标志 为 + 的 电子 邮件 是 正 
常 邮件 还 是 垃圾 邮件 。 于 是 ， 定 义 g 上 的 先 验 使 我 们 可 以 对 垃圾 邮件 的 概率 定义 先 验 信 
D: 我 们 预料 在 平均 情况 下 ， 电 子 邮 件 是 垃圾 邮件 的 概率 为 a/ (a 十 B)。 

Dl d di dtu eum. JP EDMCT UG RRIA 6 

PG LA ,.N,a,8 cog? *(1— py ere 
其 中 A = > zx， 并 且 我 们 再 次 看 到 ， 我们 组 合 了 


想象 和 实际 样本 中 的 出 现 。 注 意 ， 当 a 二 Bp 二 1 时 ， 
我 们 有 均匀 先 验 分 布 ， 并 且 后 验 与 似 然 具 有 相同 “ 
的 形状 。 随 着 这 两 个 计数 (无 论 是 关于 先 验 的 a 和 2 
B8， 还 是 关于 后 验 的 a 十 A 和 B 十 N 一 A) 的 增加 和 它 
们 之 差 的 增加 ， 我 们 得 到 具有 更 小 方差 的 更 尖 的 |, : 
分 布 ( 参 见 图 16-2)。 随 着 我 们 看 到 更 多 的 数据 ( 想 5 — oa 
象 的 或 实际 的 )， 方 差 减 小 。 


16.3 高 斯 分 布 的 参数 的 贝 叶 斯 估计 


16.3.1 一 元 情况 : 未 知 均值 ， 已 知 方差 


现在 ， 我们 考虑 实例 是 高 斯 分 布 的 情况 。 从 单 变 量 开 始 ，p (zx) 一 和 N(x，o*)， 参 数 是 
uo. Sp ERE 4.4 节 简 略 讨论 过 。 笠 本 似 然 为 
2) l _ C — u^ 1 
p(X | ps0") II exp = | (16-5) 
u BEHEREAN, pODo Nis o)» 后 验 是 
bil X) pO p(X 1 0. — N Gus son) 








:—beta (20,30) 


E "e. ; 
g: ` 
- 4 
Poi- SOS Dra ee beta (4,6) 





| beta (1,1) 
Re 
06 08 i 
图 16-2 不 同 (a,， A BS 9135 A PR 
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其 中 
o? Noi 
16-6 
Mn CC Noi + Net te T No? Neste ( ) 
1 1 N e 
bud: Aes — 16-7 
A aS lil 


其 中 mm = X r /N 是 样本 平均 值 。 我 们 看 到 后 验 密度 的 均值 ( 它 是 MAP fh) py EER 


(E yw 和 样本 均值 m 的 加 权 平 均 ， 其 中 权重 
与 它们 的 方差 成 反比 (例子 参见 图 16-3) 。 注 
意 ， 因 为 两 个 系数 都 在 0 一 1 之 间 且 其 和 为 
l, WI ux AEE uo m 之 间 。 当 样本 规模 
NN 或 先 验 的 方差 oo 大 时 ,后 验 的 均值 接近 
于 m， 更 多 地 依赖 样本 提供 的 信息 。 当 5 小 
时 ， 即 当 » 的 正确 值 的 先 验 不 确定 性 较 小 
时 ， 或 当 有 小 样本 时 ， 先 验 猜 测 jo 具有 更 大 
的 影 啊 。 

当 oo 或 o 变 小 , MN 较 大 时 ，on 变 小 。 
还 要 注意 ,ow 小 于 oo 和 o/VYN， 即 后 验方 差 
小 于 先 验 方差 和 m 的 方差 。 将 两 者 结合 导致 图 16-3 ”20 个 数据 点 从 p(z) ~N (6, 1.55) rp 





比 单独 使 用 先 验 或 样本 更 好 的 后 验 估 计 。 抽取 ， 先 验 是 p(y) NC A, 0.8), 于 
如 果 王 是 已 知 的 ， 则 对 于 新 的 zx， 我 们 是 后 验 是 p(y |X)~ 和 (5.7，0. 32) 
可 以 在 这 个 后 验 上 积分 来 做 预测 ; 
PG = [pæl pu] X)du ~ Nun sok +o) (16-8) 


我 们 看 到 ，z 仍然 是 高 斯 分 布 ， 它 的 中 心 在 后 验 均值 ， 而 它 的 方差 现在 包含 由 于 均值 
的 估计 和 新 的 采样 实例 x 导致 的 不 确定 性 。 我 们 可 以 记 z=y 十 x ， 其 中 x 一 NN O, o), 
于 是 ELx] 二 ELyj 十 ELx j] 二 jw，Var(x) 二 Var(y) 十 Var(x') 二 o% 十 oz ， 其 中 最 后 一 个 源 于 
z' 是 独立 抽取 的 这 一 事实 。 

一 旦 我 们 得 到 p(x|X) 的 分 布 ， 我 们 就 可 以 把 它 用 于 不 同 的 目的 。 例 如 在 分 类 中 ， 这 
种 方法 对 应 于 假定 高 斯 类 ， 其 中 均值 具有 高 斯 先 验 并 使 用 X; 训 练 ， 而 X; 是 X 的 子 集 ， 被 标 
记 为 C; 类 。 于 是 ， 上 面 计 算 的 p(x|X;) 对 应 于 p(x1C;)， 把 它 与 先 验 P(C;) 结 合 得 到 后 
验 ， 从 而 得 到 判别 式 。 


16. 3.2 一 元 情况 : 未 知 均值 ， 未 知 方差 


如 有 条 我 们 不 知道 cc ， 则 我 们 也 需要 估计 它 。 对 于 方差 这 种 情况 ， 我 们 使 用 精度 (preci- 
sion)， 方 差 的 倒数 ,4 三 1/o*。 使 用 它 ， 样 本 似 然 表示 为 


d " a l ] 
atx |i) = exp| 一 一 | 
Il 元 s 
—ANS ay exp| — 4 EM =a | 
Ka RE AY SE gg AG Uy HE 4m 35 4 AT (gamma distribution): 





(16-9) 


pA) cmd gamma(ay $05) — bio Pa Ha exp(— by A) 


EN 
Ita; ) 
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其 中 ， 我 们 定义 ao Sv) /2 M bo = (vo /2)85 5 PERE % 是 方差 的 先 验 估计 ，wo 是 我 们 对 该 先 验 
的 置信 和 度 一 一 它 可 以 看 作 想 象 样本 的 大 小 ， 我 们 相信 so 是 在 该 样本 上 估计 的 。 
于 是 ， 后 验 也 是 伽 马 分 布 : 
BAIX) ec p(x lA) pCa) ~ gammal(an ,bn) 


其 中 
ay = à +N/2 = won 
(16-10) 
by = by + Yet = Ssh + Os 
o = Dy 一 wW’ / N 是 样本 方差 。 我们 再 次 看 到 后 验 的 估计 是 先 验 和 样本 统计 量 的 加 
AL A 


AAT RAY x PM. 34 4 和 o 都 是 未 知 的 时 ， 我 们 需要 如 下 联合 后 验 
bn) = plulA) pO) 
HHA, p(A)~gamma(la, bo), ifl PCu|AI~N Cor 1/ CA). KB, e MA DUE TE RH 
RAR AV), KEELER aE. AAE DU P BU A 2598 76 Us FR TE 3E S Mn B ap Ah 
(normal-gamma distribution) 
p(u|A) ~normal-gamma( poo + Ko sao sbo) 


=N Guo 31/GeA)) * gammalay ypo ) 
pluA|X) ~ normal-gamma( yy sky sax sby) (16-11) 


KN = Ko + N 
— Ko to afe N m 


KN 


GN =a, + N/2 


AN 
(16-12) 


by =b +e + oN 
为 了 对 新 的 z 做 预测 ， 我 们 在 后 验 上 积分 : 
pal =|| pce lp 2 bes | XO dpd (16-13) 
~tu (au P8) 
也 就 是 说 ， 我 们 得 到 一 个 具有 给 定 的 均值 和 方差 值 、 自 由 度 为 2aw 的 ( 非 标准 的 )t 分 布 。 
在 式 (16-8) 中 ,我们 有 一 个 高 斯 分 布 ， 这 里 均值 相同 ,但 由 于 o 是 未 知 的 ， 所 以 它 的 估计 
增加 了 不 确定 性 ， 并 且 我 们 得 到 了 一 个 具有 较 宽 尾巴 的 + 分 布 。 有时， 等 价 地 ， 取 代 对 精 
度 A BER, RII Oo BE Ate ATT A EA A at dM 5, sy a HH» Ub Murphy 2007, 


(m — us )* 


(16-14) 


16.3.3 多 元 情况 : 未 知 均值 ， 未 知 协 方差 
如 果 我 们 有 多 元 变量 xER*， 则 除了 必须 使 用 分 布 的 多 元 版 本 之 外 ， 我 们 还 使 用 完全 
相同 的 方法 (Murphy 2012)。 我 们 有 
p(x) ~ Na(p,A) 
其 中 ASX | fe R424 (precision matri), 。 对 于 均值 ， 我 们 使 用 高 斯 先 验 ( 以 4 为 条 件 ): 
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ppl A) ~ Nato s (1/10 2 AD 
i Xt FEER, Op TA BCH AS Wishart 4 4 (Wishart distribution): 
pO ~ WishartCGo, Vo) 
其 中 ， 与 tÉ, up EMF ERAT BY ARR fs RIE S 
tk 8g EA Se KS EE SE A- Wishart A (normal-Wishart distribution) : 
p(n, A) =p(pl|A) pCa) 


l (16-15) 
~normal-Wishart( pio ,ko + Vo Vo) 
而 后 验 是 
plusA|X) ~ normal-Wishart(py sen» vy Vx) 
其 中 
KN =k) + N 
u _ Ko Ho 十 Nm 
, uu T oe 
js (16-16) 
Un — Vö 十 N 
ko N s 
Vs - (v: + €+ S Qi — i) n — p)" ) 
KN 
HA C= > (x — m) — m)" 是 散布 矩阵 。 
为 了 对 新 的 x 做 预测 ， 我 们 在 联合 后 验 上 积分 : 
p(x|x) =| pu A) pu Al x) dudA (16-17) 
KN na. =" s 
— (ay a ) (16-18) 


也 就 是 说 ,我 们 得 到 了 一 个 具有 该 均值 和 协 方差 、 自 由 度 为 vw 一 4d 十 1 的 ( 非 标准 的 )1t 
分 布 。 


16.4 ”函数 的 参数 的 贝 叶 斯 估计 


现在 ， 我们 对 回归 和 分 类 讨论 参数 估计 ， 不 是 讨论 分 布 的 参数 ， 而 是 讨论 输入 的 某 个 
因数 的 参数 。 我 们 的 方法 仍然 是 将 这 些 参数 看 作 具 有 一 种 先 验 分 布 的 随机 变量 ， 并 使 用 贝 
叶 斯 规则 计算 后 验 分 布 。 然 后 ， 或 者 求 积分 、 近 似 它 ， 或 者 使 用 MAP 估计 


16.4.1 回归 


让 我 们 考虑 线性 回归 模型 的 情况 
r=wxte, Hite ~ (0,1/B) (16-19) 
其 中 8 是 加 法 噪声 的 精度 (假设 d 个 输入 中 的 一 个 总 是 十 1)。 
参数 是 权重 w, JFE TTA FEAR x— (xs rho HP xrER , rER, 我们 可 以 把 Xx 
分 解 成 输入 矩阵 和 期 望 输出 的 向 量 X 王 LX， 门 。 由 式 (16-19)， 我 们 有 
bir |x' wp) ~ N Cu x 1/8) 
前 面 ， 在 4.6 节 我 们 看 到 对 数 似 然 是 
£Gw | X2 =logp(x |w) = logp(r,.X|w) 
=logp(r|X,w) + logp(X) 
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其 中 第 二 项 是 常数 ， 独 立 于 参数 。 我 们 把 第 一 项 展开 成 
logp(r|X,w,p) =log || pr |x’, wf) 
: (16-20) 
—— Nlog /2x) + NlogyB— È J) (一 ar 
对 于 ML 估计 ， 我 们 找 出 最 大 化 上 式 或 等 价 地 最 小 化 上 式 的 最 后 一 项 ， 即 误差 的 平方 
和 的 w。 该 项 可 以 改写 为 
E MEOS — wx)? = (r— Xw)!(r — Xw) 


—rir—2w!X'r-4- w'X'! Xw 
XT w 求 导 并 令 它 等 于 0， 

— 2X'r + 2X! Xw = 0—X' Xw = X'r 
我 们 得 到 最 大 似 然 估计 (在 5. 8 节 曾经 推导 出 它 ): 


Wy = (KRY Xr (16-21) 
计算 出 参数 之 后 ， 我 们 就 可 以 做 预测 。 给 定 新 的 输入 x'， 响 应 用 下 式 计算 
r = winx (16-22) 


在 一 般 情况 下 ， 对 于 任意 模型 gOx|u)o, DIDIT AERE. HP w 是 权重 ， 使 用 
梯度 下 降 最 小 化 : 
E(x | w) = [r — g(x'|w) }? 
并 且 把 最 小 化 上 式 的 wsa 称 作 最 小 二 乘 估计 子 (least square estimator), FÆ, WWH F 
AG: 
r = g(x |wiso) 
在 贝 叶 斯 方法 的 情况 下 ， 我 们 为 参数 定义 一 个 高 斯 先 验 (Gaossian prior) : 
p(w) ~ NO0,(1/a)D) 
它 是 共 恩 先 验 ， 并 且 对 于 后 验 ， 我 们 得 到 
pOw| XD ~ N (pn En) 
其 中 
fn =BEnX'r 
Zn = (al + gX' X)! 
为 了 计算 新 x 的 输出 ， 我 们 在 后 验 上 积分 


Bi [Cw x) pCw | x du 


(16-23) 


其 图 模型 显示 在 图 14-7 中 。 
如 果 我 们 想 用 点 估计 ， 则 MAP 估计 是 
wuap = Bx = Blal + BX! X)! X'r (16-24) 
并 且 在 计算 输入 x 的 输出 时 ， 我 们 将 密度 蔡 换 成 单个 点 ， 即 均值 : 
F = Wie 
我 们 也 可 以 计算 估计 的 方差 : 
Var(r') = 1/g-- (x0 Enx" (16-25) 
将 式 (16-24) 与 式 (16-21) 的 ML 估计 比较 ， 这 可 以 看 作 正 则 化 。 即 ， 我 们 给 对 角 线 增 
加 一 个 常数 项 a, PER A i, 
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先 验 bw) (0. a ' 了 表明 我 们 期 望 参 数 接近 于 0， 展 宽 与 a 成 反比 。 当 a0 时 ， 
我 们 有 平坦 的 先 验 ， 并且 MAP 估计 收敛 于 ML 估计 。 

在 图 16-4 中 我 们 看 到 ， 如 果 增 大 a， 则 人 迫使 参数 更 接近 0， 并 且 后 验 分 布 移 近 原点 并 
收缩 。 如 果 减 小 8， 则 假定 噪声 具有 高 方差 ， 并 且 后 验 也 具有 高 方差 。 


,p=2 后 验 


© 
© 
Un 





图 16-4 Ao MP 值 的 贝 叶 斯 线性 回归 。 左 边 :“X” 是 数据 点 ， 直 线条 是 ML 解 。 还 用 虚线 显示 了 
具有 一 个 标准 差 偏 差 线 的 MAP 解 。 中 间 : 中 心 在 0, 方差 为 1/a 的 先 验 密度 。 右 边 : 后 验 密 
度 ， 其 均值 是 MAP 解 。 我 们 看 到 ， 当 a 增 大 时 ， 先 验 的 方差 收缩 ， 并 且 线 移 疝 平坦 的 0 线 。 
当 有 减 小 时 ， 假 定 有 更 多 的 噪声 ， 并 且 后 验 密度 具有 较 高 的 方差 


如 果 我 们 取 后 验 的 对 数 ， 则 有 
logp(w|X.r) oclogp(r|X,w) + logp(w) 
ace > (r' — w'x')? — sw" whe 
我 们 对 其 最 大 化 ， 得 到 MAP 估计 。 在 一 般 情况 下 ， 给 定 模 型 g(x|w)， 我 们 可 以 写 一 
增 广 误差 函数 
Ea. (w | X? — 2, [r — g(x |w) }? +a ow 


其 中 A=a/B. FERRIS, RTE "TT (parameter sluitikase Y wah Ja (ridge regres- 
sion), Æ 4.8 "rp, 我 们 称 这 为 正则 化 (regularization)， 而 在 11. 9 d$ rp, 34] gk ax og qt 
经 网 络 中 的 权 衰 减 (weight decay) 。 第 一 项 是 似 然 的 负 对 数 ， 第 二 项 是 惩罚 远离 0 的 w GE 
如 先 验 的 a 所 指示 的 )。 
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尽管 这 种 方法 减少 Dwi ， 但 是 它 并 不 强制 个 体 w; 为 0。 即 它 不 能 用 于 特征 选择 ， 也 
就 是 说 ， 不 能 用 于 决定 哪些 x; 是 匈 余 的 。 为 此 ， 可 以 使 用 利用 L 范 数 而 不 是 LL; 范 数 的 拉 
普 拉 斯 先 验 (Laplacian prior) (Figueiredo 2003) ; 

p(wla) = II Sexe alwi |) = (sy exp( (Tat lw; |) 

后 验 概 率 不 再 是 高 斯 的 ， 而 MAP 估计 通过 最 小 化 下 式 找 出 : 

Eus (w | X) = 2, — wy 2522, lw: | 


其 中 闻 是 噪声 方差 (对 此 我 们 插入 我 们 的 估计 )， 这 称 作 — absolute shrinkage and 
selection operator) (Tibshirani 1996), A f BH HOME AA Li BEIM RHE, LERNER TR 
Hw. w: |’ 的 情况 (Figueiredo 2003); l1, ON la I; = ICINE, 1//2]! |; = ]l. i 


It, OJ i=l, |e, 1/421 |, 2. Bia Ly SE 8] FRE ws 为 0 并 使 用 较 大 的 wr. 
而 不 是 让 它们 都 取 较 小 的 值 。 








16. 4.2 具有 了 噪声 精度 先 验 的 回归 


上 面 ， 我 们 假定 噪声 精度 8 是 已 知 的 ， 并 且 w 是 我 们 在 其 上 积分 的 唯一 参数 。 如 果 我 
们 不 知道 8， 则 我 们 也 可 以 定义 它 上 面 的 先 验 。 正 如 我 们 在 16.3 节 所 做 的 那样 ， 我 们 可 以 
定义 一 个 伽 马 先 验 : 

p(B) ~ gamma(ay sbi) 
和 w 上 以 为 B 条件 的 先 验 : 
p(w|B) ~ N (po BE.) 
如 果 pg 三 0 和 环 二 a] ， 则 正如 上 面 所 讨论 的 ,我们 得 到 岭 回 归 。 现 在 我 们 可 以 写 出 参 
Tk w Al Lm E d cs cds. 
p(w.B) = p(B) pGw |B) 一 normal-gamma(p, Xo «ao sbo) 
可 以 证 明 (Hoff 2009) 后 验 是 
p(w,B|X,r) ~ normal-gamma(py »Zy san by) 
其 中 
Sw =(X'X + 5)” 
Bu =n (Xr+ un) 
Qn =a +N/2 (16-26) 


by =b + jr ph Zope — pnZ NB x) 


一 个 例子 在 图 16-5 中 给 出 。 图 中 ， 我 们 在 实例 的 小 集合 上 拟 合 不 同 次 数 的 多 项 式 一 一 w 

应 于 多 项 式 系数 向 量 。 我 们 看 到 ， 随 着 多 项 式 的 次 数 增加 ， 最 大 似 然 开 始 过 拟 合 。 

我 们 使 用 马尔 可 夫 链 蒙特 卡 罗 抽 样 (Markov chain Monte Carlo sampling) 得 到 的 贝 叶 
斯 拟 合 ， 方 法 如 下 : 从 p(—P)~gammalay, by) THR—+t BIA. SALA pwl ~N, B 
zy) 抽取 w， 这 给 我 们 一 个 从 后 验 p(w，B) 抽 样 的 模型 。 对 多 项 式 的 每 个 次 数 ， 抽 取 10 
个 这 样 的 样本 ， 如 图 16-5 所 示 。 粗 线 是 这 10 个 模型 的 平均 值 ， 是 全 积分 的 一 个 近似 。 我 
们 看 到 ， 即 便 使 用 10 个 样本 ,我 们 也 得 到 了 一 个 合理 的 、 非 常 光 滑 的 数据 拟 合 。 注 意 ， 
从 后 验 抽样 的 模型 不 一 定 比 最 大 似 然 估 计 好 ， 它 是 取 平 均 导致 光滑 从 而 导致 更 好 的 拟 合 。 
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图 16-5 贝 叶 斯 多 项 式 回归 的 例子 。 圆 圈 是 数据 点 。 虚 线 是 最 大 似 然 拟 合 ， 随 着 多 项 式 的 次 数 增加 ， 
它 过 拟 合 。 细 线 是 取 自 后 验 p(w， 忆 的 10 个 样本 ， 而 粗 线 是 它们 的 平均 


16.4.3 ds HER LER S FR 
使 用 式 (16-23) 的 贝 叶 斯 估计 ， 预 测 可 以 表示 为 
r —(x)'w 
= A(x")? Dy Xr 
三 六 
这 是 对 偶 表 示 (dual representation) 。 当 我 们 可 以 用 训练 数据 或 像 支 持 向 量 机 (第 13 
章 ) 那 样 用 训练 数据 的 一 个 子 集 表 示 参 数 时 ， 我 们 可 以 把 预测 写成 当前 输入 和 过 去 数据 的 
PRA. FEAT AY LA Ik deo D 
ya KG a)» (16-27) 


其 中 ， 我 们 定义 
Kix sx’) = BG Y" yx (16-28) 

我 们 知道 我 们 可 以 通过 使 用 非 线性 基 函 数 办 (x) 映射 到 新 空间 ， 在 新 空间 中 拟 合 线 性 模 
型 ， 来 推广 式 (16-28) 中 的 线性 核 。 在 这 种 情况 下 ,我 们 有 上 &* 维 $9(x) 而 不 是 d 维 x， 其 中 
FETE RAS, HHA NXk PERRO 的 图 像 ， 而 不 是 NXd 的 数据 和 矩阵 六。 

在 检验 期 间 ， 我 们 有 

r =x)" w,X'? w = gz&ó'r. Tk = Cl + goo) ' 
=BO(x')™ Exíor 
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= ppp (x07 Thx") 
(16-29) 
= > K(x xr 
其 中 ， 我 们 定义 
K(x yw) = Bol Y" ERO) (16-30) 
作为 等 价 核 。 这 是 $x) 的 空间 中 的 对 偶 表 示 。 我 们 可 以 将 估计 表示 成 训练 集中 实例 影响 的 
加 权 和 ， 其 中 影响 由 核 函 数 K(x ，x') 给 定 。 这 类 似 于 我 们 在 第 8 章 讨 论 的 核 光 滑 或 第 13 
章 的 核 机 器 。 
误差 线 可 以 用 下 式 定 义 
Var(r ) = B +(x’)? giel’) 
对 于 线性 、 二 次 核 和 六 次 核 ， 图 16-6 给 出 了 一 个 例子 。 这 等 价 于 我 们 在 图 16-5 中 看 
到 的 多 项 式 回 归 ， 唯 一 不 同 是 我 们 在 这 里 使 用 对 偶 表 示 且 多 项 式 的 系数 w RAR A. 
我 们 看 到 ， 与 在 严格 意义 下 的 回归 中 我 们 可 以 在 原始 x 或 $9(x) 上 进行 一 样 ， 在 贝 叶 斯 回归 
中 ,我 们 也 可 以 在 预 处 理 的 和 x) 上 进行 ， 在 该 空间 中 定义 参数 。 本 章 的 后 面 ， 我 们 将 考察 
高 斯 过 程 ， 那 里 可 以 直接 定义 和 使 用 K(x，x')， 而 不 必 计 算 $960. 





oratia 
pt 


3 
ghee 
] 
0 


3 4 5 6 7 8 
a) 线性 (a—1, P=1) 


ate ary 


c) 六 次 


图 16-6 使 用 具有 标准 差 误差 线 的 核 的 贝 叶 斯 回归 : a) 线性 : $C —[1. x]; b) 二 次 : 
x)= x, F)*s DAK: $62 —[1, x, Rs | 


16.4.4 贝 叶 斯 分 类 


在 两 类 问题 中 ， 我 们 有 单个 输出 ， 并 且 假 定 一 个 线性 模型 ， 我 们 有 
P(C, |x') = y' = sigmoid w' x') 
伯 努 利 样本 的 对 数 似 然 为 
£(r|X) = >r'logy + (1 —r')log( — y') 


例如 ， 我 们 使 用 梯度 下 降 最 大 化 它 或 最 小 化 它 的 负 对 数 ( 互 精 )， 得 到 ML fiib. KREE 
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辑 斯 请 判别 式 (logistic discrimination) (参见 10. 7 47). 
在 贝 叶 斯 方法 中 ， 我 们 假定 高 斯 先 验 


pow) — N mo $85.J (16-31) 
而 后 验 的 对 数 为 d 
logp(w|r,X) cclogp(w) + logpir |w , X) 
1 : ' 
=— 5 (w— m )' S; Cw — m) + 2j logy, - 
q4-l—lg(1—»5)-4-e (16-32) 464 


这 个 后 验 分 布 不 再 是 高 斯 分 布 ， 并 且 我 们 不 能 精确 地 求 积分 。 我 们 可 以 使 用 拉 普 拉 斯 近 
似 (Laplace approximation) ， 方 法 如 下 (MacKay 2003) 。 假 设 我 们 想 要 近似 某 个 分 布 f(x)， 不 
必 是 规范 化 的 (积分 为 1 )。 在 拉 普 拉 斯 近似 中 ， 我 们 找 出 f(z) 的 众 数 z。， 拟 合 一 个 中 心 在 
zo、 方 差 由 均值 附近 的 f(z) 的 曲率 给 定 的 高 斯 函数 g(x)， 而 后 如 果 我 们 想 要 积分 ， 就 在 拟 
合 的 高 斯 函数 上 积分 。 为 了 得 到 该 高 斯 的 方差 ， 我们 考虑 COE x= 二 zo 处 的 泰勒 展 式 


log fr) = log ft) = Fala — xo) je sxe 
其 中 


| 


a 


= E log f(x) 





T= X 


注意 ， 第 一 项 (线性 项 ) 消 失 ， 因 为 在 众 数 上 的 一 阶 导 数 为 0。 取 指数 ， 我 们 得 到 
fix) = fonja — 5 (z= z) | 
为 了 规范 化 f(x)， 我 们 考虑 在 高 斯 分 布 中 
l 二 EF & io ~~ Y |. eom 
lap 7 (x Za) | 1>|exp| 2 ( Te) | a/2n 
因此 
q(x) = Va]@rexp| — 5 (x — zo)? |~ N Goo ,1/a) 
在 多 元 情况 下 ，xER"， 我 们 有 
logf (x) = logfx$42 — E (x— xy) A(x — x) d+ 


其 中 4 是 二 阶 导数 的 (Hessian) 和 矩阵 ， 
A =— VVlog f(x) | ,—., 
于 是 ， 拉 普 拉 斯 近似 为 
1/2 
fix) = Ar|- (x — x) "AG — xo) |~ Nal xg, A~!) 

在 讨论 了 如 何 近 似 之 后 ， 现 在 可 以 使 用 它 计 算 后 验 密度 。wvwsp 是 p(w|r，XX) 的 众 数 ， 

取 作 均值 ， 协 方差 矩阵 由 负 的 对 数 似 然 的 二 阶 导数 矩阵 的 逆 给 出 : 
S, —— VVlogpCw |r, X) = Sj! + Dy' (1— y')x (x')T 
于 是 ， 我 们 在 这 个 高 斯 图 数 上 积分 ， 估 计 类 概率 
PEO | = y = | sigmoid(w"x)q(w) dw 

Ep g(w) ~ Cw, + Sw!) 。 另 一 个 难题 是 我 们 不 能 解析 地 求解 带 sigmoid 的 高 斯 卷 积 的 
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积分 。 概 率 单 位 函数 (probit function) 5 sigmoid 函数 具有 相同 的 S 形 ， 如 果 我 们 代 之 以 概 
率 单位 函数 ， 则 可 以 得 到 解析 解 (Bishop 2006), 


16.5 选择 先 验 


定义 先 验 是 贝 叶 斯 估计 的 主观 部 分 ， 因 此 应 该 小 心 进行 。 最 好 是 定义 具有 重 尾 的 鲁 棒 
先 验 ， 以 免 对 参数 空间 限制 太 多 。 在 没有 先 验 偏好 的 极端 情况 下 ， 可 以 使 用 一 个 无 信息 的 
先 验 ， 并 且 已 为 此 提出 了 一 些 方法 ， 例 如 ，Jeffreys 先 验 (Murphy 2012). AY, FM 
先 验 选择 也 受到 简洁 性 的 推动 一 一 例如 ， 共 思 e 先 验 使 得 推理 很 容易 。 

一 个 关键 决定 是 何 时 取 参 数 为 常数 ， 何 时 定义 它 为 一 个 具有 先 验 并 被 积分 ( 取 平 均 ) 的 
随机 变量 。 例 如 ， 在 16. 4. 1 节 中 ， 我 们 假设 我 们 知道 噪声 精度 ， 而 在 16.4.2 节 中 ， 我 们 
假设 我 们 不 知道 噪声 精度 并 在 它 上 面 定 义 一 个 伽 马 先 验 。 类 似 地 ， 对 于 线性 回归 的 权重 展 
宽 ， 我 们 假设 了 一 个 常量 a 值 ， 但 是 如 果 我 们 愿意 ， 也 可 以 在 它 上 面 定 义 一 个 先 验 并 对 它 
取 平 均 。 当 然 ， 这 使 得 先 验 更 复杂 的 ， 整 个 推理 更 困难 ， 但 是 如 果 我 们 不 知道 好 的 a 值 是 
什么 ， 则 应 首选 在 a 上 取 平 均 。 

另 一 个 决定 是 定义 先 验 要 走 多 远 。 假 设 我 们 有 参数 9， 并 且 在 它 上 面 定 义 了 一 个 后 验 。 
在 预测 中 ， 我 们 有 


EI: piz xX) = Jaczl0) pC0| x)d 
其 中 p(9|X)ccp(X10)p(9)。 如 果 我 们 相信 除非 依赖 于 某 个 其 他 变量 ,否则 我 们 不 能 定义 
一 个 好 的 p(0)， 则 我 们 可 以 让 9 以 超 参 数 a 为 条 件 并 在 它 上 面积 分 : 

El: pte |x) = | p16) pC0| X +a) pa) dóda 

这 称 为 层次 先 验 (Chierarchical prior)。 这 确实 使 推断 相当 困难 ， 因 为 我 们 需要 在 两 层 
上 积分 。 一 种 捷 近 是 在 数据 上 检验 不 同 的 a 值 ， 选 取 最 佳 的 a”， 并 只 使 用 该 值 : 

E IML: po|x) = | (x0) (81 x sa” Yd 

这 称 作 层 开 最 大 似 然 (level [[ maximum likelihood) 2X 22 # N ++ 3f (empirical Bayes) 。 


16.6 贝 叶 斯 模型 比较 


假设 我 们 有 许多 模型 M;， 每 个 有 它 自 己 的 一 套 参 数 G6 ， 而 我 们 想 要 比较 这 些 模型 。 例 
如 ， 在 图 16-5 中 ,我 们 有 不 同 次 数 的 多 项 式 ， 并 且 假 设 我 们 想 检 查 它们 对 数据 的 拟 合 情 况 。 

对 于 给 定 的 模型 M 和 参数 9， 数 据 的 似 然 是 p(X|M，09)。 为 了 得 到 给 定 模 型 的 贝 叶 斯 
边缘 似 然 (marginal likelihood) ， 我 们 在 9 上 取 平 均 ， 


bOx | 0n = [px 10.2 POl M) do (16-33) 
这 又 称 模型 证 据 (model evidence)。 例 如 ， 在 上 面 的 多 项 式 回 归 的 例子 中 ， 对 于 给 定 
的 多 项 式 次 数 ， 我 们 有 
p(r|X,™) = [pr IX «wg. MD pCw B| 2D dwdg 
其 中 p(w, Bi M) 是 模型 M 的 先 验 假设 。 于 是 ， 给 定数 据 ， 我们 可 以 计算 模型 的 后 验 
概率 : 


力 (M|X) = ex La BUND (16-34) 
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其 中 P(M) 是 定义 在 模型 上 的 先 验 分 布 。 贝 叶 斯 方法 的 一 个 好 的 性 质 是 : 即使 均匀 抽取 这 
些 先 验 ， 因 为 在 所 有 的 9 上 取 平 均值 ， 所 以 边缘 似 然 也 倾向 于 简单 模型 。 假 设 我 们 有 一 些 
复杂 度 递增 的 模型 例如， 次 数 递增 的 多 项 式 。 

假设 有 一 个 包含 N 个 实例 的 数据 集 X。 与 简单 模型 相 比 ， 更 复杂 的 模型 能 够 相当 好 地 
拟 合 更 多 这 样 的 数据 集 。 考 虑 在 平面 上 随机 选择 3 个 点 。 可 以 被 一 条 直线 拟 合 的 这 样 的 三 
元 组 的 数量 比 可 以 被 一 条 二 次 曲线 拟 合 的 三 元 组 的 数量 少 得 多 。 给 定 2) pcd ant 


因为 对 于 复杂 模型 而 言 ， 它 存在 更 多 可 能 的 X， 它 可 以 做 出 合理 的 拟 合 ， 所 以 对 于 某 个 特 
定 的 X ， 如 果 存 在 一 个 拟 合 ， 则 p(X | M) 值 将 会 较 小 (参见 图 16-7) 。 因 此 ， 对 于 较 简 单 
模型 ，p(M|X) 将 会 较 高 (即使 假定 先 验 概率 pM) ABE AAAS AY). AE PAR J YL np 
斯 解释 (MacKay 2003), 


p (XIM) 





C L4 -| -> 
X 


X 


图 16-7 贝 叶 斯 模型 比较 倾向 于 简单 模型 。M! ，M: 和 Ms 是 3 个 复杂 度 递 增 的 模型 。 工 轴 是 包 
含 N 个 实例 的 所 有 数据 集 的 空间 。 复 杂 模 型 可 以 拟 合 更 多 的 数据 集 ， 但 稀薄 地 散布 在 
大 小 为 N 的 所 有 可 能 的 数据 集 的 空间 上 ; 较 简 单 的 模型 可 以 拟 合 较 少 数据 集 ， 但 每 个 
都 有 较 高 的 概率 。 对 于 一 个 特定 的 数据 集 X ， 如 果 两 个 模型 都 可 以 拟 合 ， 则 较 简 单 的 
模型 将 有 更 高 的 边缘 似 然 (MacKay 2003) 


对 于 图 16-5 中 的 多 项 式 拟 合 的 例子 ， 似 然 与 边缘 似 然 的 比较 如 图 16-8 所 示 。 我 们 看 
到 ， 当 复杂 度 增加 时 似 然 增 大 ， 这 意味 着 过 拟 合 ， 但 是 边缘 似 然 增 大 直到 正确 的 程度 ， 然 
后 开始 下 降 。 这 是 因为 有 许多 更 复杂 的 模型 ， 它 们 对 数据 拟 合 很 差 ， 并 且 随 着 在 它们 之 上 
取 平 均 ， 它 们 拉 低 了 似 然 。 
如 果 我 们 有 两 个 模型 M。 和 M1， 则 可 以 比较 它们 
PCMi |X) =~ POX | m) PCM) 


P(M.|x) — POX | M) PCM 
并 且 如 果 这 个 比例 大 于 1， 则 我 们 对 M, 更 有 信心 ， 否 则 我 们 对 M 更 有 信心 。 

这 里 有 两 个 要 点 。 第 一 ， 这 两 个 边缘 似 然 的 比 称 为 贝 叶 斯 因子 (Bayes factor)， 并 且 即 
使 两 先 验 取 相同 的 值 ， 但 对 于 模型 选择 它 也 足够 用 了 。 第 二 ， 在 贝 叶 斯 方法 中 ， 我 们 不 在 
模型 之 间 选 择 ， 并 且 不 做 模型 选择 。 而 是 与 贝 叶 斯 方法 的 精神 一 致 ， 平 均 它 们 的 预测 ， 而 
不 是 选择 一 个 而 舍弃 其 他 。 例 如 ， 在 上 面 的 多 项 式 回 归 例 子 中 ， 与 其 选择 一 个 多 项 式 次 
数 ， 不 如 取 所 有 次 数 上 用 边缘 似 然 加 权 的 加 权 平 均 。 

一 种 相关 的 方法 是 使 用 拉 普 拉 斯 近似 (参见 16. 4.4 节 )) 的 贝 叶 斯 信息 准则 (Bayesian 
Information Criterion，BIC) ， 式 (16-33) 近 似 地 表示 为 





logpCX | M) ~ BIC = logp(X | Ou. s M) 一 [Ml log (16-35) 
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第 一 项 是 使 用 ML 佑 计 的 似 然 ， 第 二 项 是 惩罚 复杂 模型 的 罚 : | M | 是 模型 复杂 度 度 
量 ， 换 句 话 说 ， 是 模型 的 自由 度 一 一 例如 ， 线 性 回归 模型 中 系数 的 数量 。 随 着 模型 复杂 度 
的 增加 ， 第 一 项 可 能 会 更 高 ， 但 第 二 个 罚 项 对 此 进行 补偿 。 


0.7 








| 2 3 4 5 6 
次 数 


图 16-8 多 项 式 回 归 例 子 的 似 然 与 边缘 似 然 。 尽 管 似 然 随 多 项 式 的 次 数 增加 而 增加 ， 
但 是 在 参数 值 上 取 平 均 的 边缘 似 然 在 正确 的 复杂 度 上 达到 尖峰 ， 而 后 下 降 

一 种 相关 但 非 贝 叶 斯 的 方法 是 Akaike 信息 准则 (Akaike’s Information Criterion, 

AIC), ite 
AIC = logp(X | Om. M) — | M| (16-36) 

这 里 ， 我 们 再 次 看 到 正比 于 模型 复杂 度 的 罚 项 。 重 要 的 是 要 注意 ， 在 这 样 的 准则 中 ，| M | 
代表 "有效 ”自由 度 而 不 是 简单 模型 中 可 调 参数 的 数量 。 例 如 ， 在 多 层 感知 器 (参见 第 11 
章 ) 中 ， 有 效 自由 度 远 少 于 可 调 的 连接 权重 的 数量 。 

罚 项 的 一 种 解释 是 看 作 一 个 “乐观 ?项 (Hastie，Tibshirani 和 Friedman 2011)。 在 复杂 
BRA. ML 估计 可 能 会 过 拟 合 ， 因 而 是 模型 性 能 的 一 个 非常 乐观 的 指示 。 因 此 ， 它 应 该 与 
模型 的 复杂 度 成 比例 地 减少 。 


16.7 混合 模型 的 贝 叶 斯 估计 
fE 7.2 8. 我们 讨论 了 混合 模型 ， 该 模型 把 密度 写成 支 密度 的 加 权 和 。 回 忆 式 (7. 1) 


k 
p(x) = >) P(G:) p(x|Gi) 
i=] 


其 中 ，p(6Gi) 是 混合 比例 ，p(x|G;) 是 支 密度 。 例 如 ， 在 混合 高 斯 中 ， 有 plxe|GO~N (pi， 
EZ). JFHoEX zm =PG), 我 们 有 参数 向 量 ®@= 二 (xi，Jki， 瑟 };-1， 它 需要 由 数据 X= 
it HM, à 
fE 7.4 B, 我们 讨论 了 EM 算法 ， 它 是 一 个 最 大 化 似 然 过 程 : 
Ömre = arg max logp(x | ©) 
如 果 有 先 验 分 布 如 更) ， 则 可 以 设计 一 种 贝 叶 斯 方法 。 例 如 ，MAP 估计 是 
Duap = arg maxlogp(® | X) = arg max logp(x |©) + logp(®) (16-37) 
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现在 ， 我 们 来 写 出 先 验 。 Il 是 多 项 式 变量 ， 并 且 与 在 16.2.1 节 讨 论 的 那样 ， 可 以 对 


它们 使 用 狄 利克 雷 先 验 。 对 于 高 斯 分 支 ， 对 于 均值 和 精度 ( 逆 协 方差 ) 和 矩阵， 可 以 像 16. 3 
节 讨 论 的 那样 ， 使 用 正 态 -Wishart 先 验 : 
p(®) = p(n) [|p Cp,A) 
l (16-38) 
= Dirichlet (x |æ) I] normal-Wishart( plo sxo s VoVo) 


因此 ， 在 这 种 情况 下 使 用 EM, E 5%, 但 是 在 M 步 ， 最 大 化 具有 该 先 验 的 后 验 
(Murphy 2012), 。 加 上 后 验 的 对 数 ， 式 (7. 10) 变 成 
9(o|o') = A. X jh!logz, + » SJhilogp; (x |") + logp(m) + 
AES. nF (16-39) 
>, logp(u; Ai) 
其 中 KSE zi EE E AE o A STE iT A oS. MÆ MAP 对 混合 比例 估计 如 下 
(基于 式 (16-4) ) : 
Hl __ a; + N;—1 


Ni — (16-40) 
Sa: T N m K 
其 中 N, = YI. Map MAP 对 高 斯 支 密度 参数 估计 如 下 (基于 式 (16-16)) 
+1 Ko Bo + Nim, | 
‘i ko +N, 
(16-41) 


At -( Vo +G T S; ) 
Us TN, tatg 


其 中 , m = 》jh!/N; 是 支 均 值 , C, = Xhi — m;) (x! — m)" 是 分 支 i 的 散布 内 (within- 


scatter) FRE, mM S; — Ceo Ni) / Ceo + N,) Cm; — po) Cm; — po) 是 先 验 均值 附近 分 支 i 的 散布 间 
(between-scatter) 和 矩阵 。 

如 采取 a; 二 1/K， 则 这 是 均匀 先 验 。 我 
(TAT AR ko =0 不 影响 均值 估计 ， 除 非 我 们 
有 一 些 关 于 它们 的 先 验 信 息 。 我 们 可 以 取 V。 
为 单位 矩阵 ， 因 而 MAP 估计 具有 正则 化 
效果 。 

混合 密度 在 图 16-9 中 被 显示 为 生成 图 
模型 。 

一 旦 我 们 知道 如 何以 贝 叶 斯 方式 做 基本 
块 ， 我 们 就 可 以 组 合 它们 得 到 以 便 更 复杂 的 
模型 。 例 如 ， 组 合 我 们 这 里 的 混合 模型 和 图 16-9 高 斯 混合 模型 的 生成 图 表示 
16.4.1 节 讨 论 的 线性 回归 模型 ， 可 以 写 出 混合 专家 模型 (12.8 节 ) 的 贝 叶 斯 版 本 。 其 中 ， 
把 数据 聚 类 成 分 支 ， 并 且 同 时 在 每 个 分 支 上 学 习 一 个 单独 的 线性 回归 模型 。 后 验 变 得 相当 
难以 对 付 。Waterhouse 等 1996 利用 变 分 近似 ， 粗 略 地 说 ， 其 工作 原理 如 下 。 

我 们 记得 ， 在 拉 普 拉 斯 近似 中 ， 用 高 斯 和 高 斯 上 的 积分 近似 pCO| XO. HERA 3E 4A. 
(variational approximation) 中 ， 用 其 参数 w n] ys my 25 BE q Cz | SO Xr füUg I (Jordan 等 1999; 
MacKay 2003; Bishop 2006)。 因 此 ， 它 更 通用 ， 因 为 不 限于 使 用 高 斯 密度 。 这 里 ，z 包 含 
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模型 的 所 有 潜在 变量 和 参数 909， 并 且 近 似 模型 g(z | VO B) vr gis dk. ES qCz | vos n] Ed 
接近 p(z|X). 
我 们 定义 两 者 之 间 的 Kullback-Leibler 距离 (Kullback-Leibler distance) : 
Du (gp) = Dal wlog LAS 
为 了 简便 ,假设 潜在 变量 的 集合 (包括 参数 ) 被 划分 成 子 集 2;，i 二 1，…，k， 使 得 变 分 
分 布 可 以 分 解 为 因子 : 





(16-42) 


k 


qiz|¥} = Ilac: |^) (16-43) 


每 个 因子 中 参数 的 调整 是 迭代 的 ， 非常 像 7 4 市 中 讨论 的 期 望 最 大 化 算法 。 aAa HE 
随机 的 ) 初 始 值 开始 ， 并 在 调整 每 个 参数 时 ， 以 循环 的 方式 使 用 2z;(j 关 让 的 期 望 值 。 这 称 为 
均值 场 近似 (mean-field approximation) , 

这 种 因子 分 解 是 一 种 近似 。 例 如 ， 在 16.4.2 节 中 ， 当 我 们 讨论 回归 时 ， 我 们 有 

plw,B) = pA pCv |p) 
因为 w VA B 为 条 件 。 变 分 近似 假设 
力 ( 九 ,8) = p(Pplw) 

例如 ， 在 混合 专家 模型 中 ， 湾 在 参数 是 分 文 指 数 ， 参 数 是 门 控 模型 中 的 参数 、 局 部 专 
家 中 的 回归 权重 、 品 声 的 方差 ， 以 及 门 控 和 回归 权重 的 先 验 的 超 参数 。 它 们 都 是 因子 
(Waterhouse, MacKay 和 Robinson 1996) 。 


16.8 非 参 数 贝 叶 斯 建 模 


本 章 前 面 讨论 的 模型 都 是 参数 的 ， 意 指 我 们 有 具有 一 组 参数 的 复杂 度 固定 的 模型 ， 使 
用 数据 和 先 验 信息 优化 这 些 参数 。 在 8 章 中 ， 我 们 讨论 了 非 参 数 模型 ， 其 中 训练 数据 构成 
模型 ， 因 此 模型 的 复杂 度 取决 于 数据 的 大 小 。 现 在 ， 我 们 看 看 如 何 将 这 样 的 非 参 数 方法 用 
于 贝 叶 斯 建 模 。 

非 参数 模型 并 不 意味 着 模型 没有 参数 ， 而 是 意味 着 参数 的 数目 不 是 固定 的 ， 参 数 数目 
的 增长 可 能 依赖 数据 的 规模 ,或 者 更 好 一 些 ， 依 赖 存在 于 数据 中 的 规律 的 复杂 度 。 这 种 模 
型 有 时 也 称 为 无 限 (infinite) 模 型 ， 意 指 它们 的 复杂 度 可 以 随 着 数据 增加 而 持续 增加 。 在 
11.9 节 中 ， 我 们 讨论 了 增 量 神经 网 络 模型 ， 在 该 模型 中 新 的 隐藏 单元 在 需要 时 添加 ， 而 
网 络 在 训练 期 间 增长 。 但 通常 在 参数 学 习 时 ， 通 过 检查 独立 验证 集 上 的 性 能 在 处 循环 调整 
模型 的 参数 。 非 参数 贝 叶 斯 方法 通过 使 用 一 个 合适 的 先 验 在 参数 训练 时 调整 模型 (Gersh- 
man 和 Blei 2012) 。 这 使 得 这 种 模型 更 加 灵活 ， 并 且 如 果 不 是 贝 叶 斯 方法 减轻 过 拟 合 风险 ， 
则 通常 会 使 它们 易于 过 拟 合 。 

因为 参数 是 增长 的 ， 所 以 这 种 参数 上 的 先 验 知识 应 该 能 够 处 理 这 种 增长 。 我 们 将 对 机 
器 学 习 的 3 种 不 同类 型 的 应 用 讨论 3 种 先 验 分 布 实例 ， 即 用 于 监督 学 习 的 高 斯 过 程 ， 用 于 
聚 类 的 狄 利克 雷 过 程 和 用 于 维 归 约 的 贝塔 过 程 ， 


16.9 高 斯 过 程 


假定 有 线性 模型 y 二 w x。 于 是 ， 对 于 每 个 w， 有 一 条 直线 。 给 定 先 验 分 布 p(w)， 
得 到 直线 的 分 布 ， 或 者 更 具体 地 说 ， 对 于 任意 的 w， 当 w 是 从 EE 得 到 在 x 处 计 
算 的 y 值 ( 记 作 y(w|x)) 的 分 布 ， 而 这 就 是 高 斯 过 程 。 我 们 知道 ， 如 果 p(w) 是 高 斯 分 布 ， 则 
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每 个 y 都 是 高 斯 分 布 的 线性 组 合 ， 并 且 也 是 高 斯 分 布 。 尤 其 是 ， 我 们 对 NN 个 输入 点 x G-—1, 
…，N) 上 计算 的 y 值 的 联合 分 布 感 兴趣 (Mackay 1998) 。 
假定 有 0 均值 的 高 斯 先 验 
p(w) ~ N(05C/aD 
给 定 NXd WRG X Ald Xl 的 权重 向 量 ， 我 们 将 输出 > 写作 
y = Xw (16-44) 
这 是 N 元 高 斯 ， 满 足 
Ely] = XELw]=0 
Cov(y) = EL yy’ | = XE[ ww! ]X! = —XX! = K la 
其 中 K 是 格拉 姆 (Gram) 和 矩阵 ， 其 元 素 是 


UNT o 
K,; = K(x xi) 2 
a 


在 高 斯 过 程 的 文献 中 ， 这 称 作 协 方 差 函 数 (covariance function), 3 H H E 485 4% RK% 
相同 : SSR EASE RR 内 zx) 的 集合 ， 则 通过 核 
K..= $ (x') h(x’) 


把 原 输入 的 点 积 推广 为 基 消 数 的 点 积 。 
实际 的 观测 输出 > 由 加 上 噪声 的 直线 r= 二 y 十 e B. He (OO. F). XT BUG 
N 个 数据 点 ， 将 它 记 作 
r~ Jrw(0,Cw), 其 中 CN = Bg I4-K (16-46) 
为 了 做 预测 ， 我 们 将 新 数据 看 作 第 N 十 1 个 数据 点 对 (x ， xr)， 并 使 用 所 有 N 十 1 个 
数据 点 表示 联合 分 布 。 我 们 有 
rya ~ ANC0,CNH ) (16-47) 
其 中 
CN k 
Cx = p | 
其 中 k 是 K(x ，x')(t 二 1，…，N) 的 NX1 维 向 量 , mi c— Kx, x08, FH, 为 了 
做 出 预测 ， 我 们 计算 p(r' |x ，X，r) ， 它 是 高 斯 的 ， 满 足 
E[r |x] =& Cyr 
Var(r'|x ) —c— k" Cy k 
图 16-10 给 出 了 一 个 例子 ， 其 中 使 用 线性 、 二 次 和 高 斯 核 。 前 两 个 定义 为 它们 对 应 的 
ERRAR, BEREH 
Kalir x) = exp) - BET 


s? 


均值 是 点 估计 (如 果 不 在 整个 分 布 上 积分 )， 也 可 以 写成 核 效 果 的 加 权 和 
Er |] = 5 ja'K (25 x^) (16-48) 


其 中 ，a' 是 Csr 的 第 t 个 分 量 。 我 们 还 可 以 将 它 表示 成 训练 数据 点 的 输出 的 加 权 和 ， 其 中 
权重 由 如 下 核 泪 数 给 出 
E[r |x] = Zur (16-49) 


RP, wk CN 的 第 上 个 分 量 。 
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0 l 2 3 4 5 6 7 8 
a) 线性 (a=1, p=5) 





~~ ——1 a —4 5 6 7 à 

c) 高 斯 

图 16-10 ”具有 一 个 标准 差 误差 线 的 高 斯 过 程 回归 : a) 线性 核 ，b) 二 次 核 ，c) HAR 
$55 =0.5 的 高 斯 核 





0 
N=10 





-1 -0.5 0 0.5 l 
N=5 
图 16-11  fEJH s —0. 5 的 高 斯 核 和 不 同 数量 的 训练 数据 的 高 斯 过 程 回归 。 我 们 看 到 ， 
在 数据 不 多 的 地 方 预测 的 方差 较 大 


注意 ， 我 们 也 可 以 在 一 个 点 上 计算 预测 方差 ， 以 便 了 解 那里 的 不 确定 性 ， 并 且 这 依赖 
于 影响 其 预测 的 实例 。 在 高 斯 核 的 情 次 下 ， 只 有 局 部 区 域内 的 那些 点 是 有 影响 的 ， 并 且 附 
近 数 据点 很 少 的 地 方 的 预测 方差 高 (参见 图 16-11). 
正如 第 13 草 介 绍 核 机 融 时 所 讨论 的 ， 可 以 根据 应 用 定义 和 使 用 核 函数 。 直 接 使 用 核 
up 哺 数 而 不 必 计算 或 存储 基 哨 数 提供 了 很 大 的 灵活 性 。 通 常 ， 给 定 训练 集 ， 我 们 先 计 算 参 数 
) | 〈 例 如， 使 用 式 (16-21))， 然 后 使 用 参数 用 式 (16-22) 做 预测 ， 而 不 再 需要 训练 集 。 这 是 有 
477| ”意义 的 ， 因 为 参数 的 维度 通常 为 0(d)， 一般 比 训练 集 的 规模 N 小 得 多 。 
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Rm. SPREE RAI. FY EAN AE B XGT EA. E A E pw BY HE HE RT BEIR R 
其 至 为 无 限 。 在 这 种 情况 下 ， 正 如 我 们 这 里 所 做 的 ， 使 用 核 函数 ， 考 虑 训练 实例 的 影响 ， 用 对 
偶 表 示 可 能 更 经 济 。 这 种 思想 也 用 于 非 参 数 光滑 (参见 第 8 章 ) 和 核 机 器 (参见 第 13 章 )。 

这 里 要 求 Cv 是 可 逆 的 ， 因 而 是 正定 的 。 为 此 , 天 应 当 是 半 正 定 的 ， 使 得 将 B' > O 加 到 
对 角 线 上 后 得 到 正定 性 。 我 们 还 看 到 ， 最 品 中 的 操作 是 计算 NXN EEK., FWE, € 
只 需要 (在 训练 时 ) 计 算 一 次 并 存储 。 然 而 ， 对 于 很 大 的 N， 可 能 还 是 需要 近似 计算 。 

当 我 们 使 用 它 对 两 类 问题 分 类 时 ， 输出 要 经 过 SI KBE. BU y=sigmoid(w'x), 
FFA y 的 分 布 不 再 是 高 斯 的 。 求 导 类 似 ， 不 同 之 处 是 条 件 概率 户 (rxw+i xv X, DAA 
是 高 斯 的 ， 并 且 我 们 需要 近似 计算 ， 例 如 ， 使 用 拉 普 拉 斯 近似 (Bishop 2006, Rasmussen 
和 Williamsburg 2006 ) 。 


16.10 ARB WEN E] Ste 


为 了 解释 狄 利克 雷 过 程 ， 让 我 们 从 一 个 隐喻 开始 。 有 一 家 有 很 多 和 餐桌 的 中 国 餐 馆 。 顾 
客 逐 个 进入 。 我 们 从 坐 在 第 一 张 餐 如 的 第 一 个 顾客 开始 ， 并 且 任 何 后 来 的 顾客 都 可 以 坐 在 
已 占用 的 餐 果 的 一 个 位 置 上 ， 或 开始 一 张 新 餐 果 。 硕 客 坐 到 一 张 已 占用 的 餐桌 的 概率 与 已 
经 坐 在 该 和 餐 果 的 顾客 数量 成 比例 ， 而 他 坐 到 一 张 新 餐 果 的 概率 取决 于 中 国 餐 馆 参 数 a。 这 
就 是 所 谓 的 中 国 餐 馆 过 程 (Chinese restaurant process): 


以 概率 Plz = 1) = (i = 1...) 加 入 一 张 已 有 的 餐桌 





n; 
ad n—1 


以 概率 Plza = 1) = 一 张 新 餐 昌 


stant 74 
其 中 n; 是 已 经 在 餐桌 i 的 顾客 数 ,= > 是 顾客 总 数 。a ER OR Ke ERY i]. d 


过 程 的 参数 。 注 意 ， 在 每 一 步 ， 顾客 座位 安排 定义 了 一 个 把 整数 l~n 分 成 & 个子 集 的 划 
分 。 这 称 作 以 a HBR KAI ZS zt #2 (Dirichlet process), 

通过 让 顾客 的 选择 不 仅 依 赖 于 和 餐 果 的 占用 情况 而 且 也 依赖 输入 ,我们 可 以 将 这 种 方法 
用 于 聚 类 。 假 设 这 不 是 一 个 中 国 餐 厅 而 是 一 个 大 型 会 议 ( 例 如 ，NIPS) 的 宴会 。 宴 会 有 一 
个 有 很 多 梨子 的 大 宣 会 厅 。 晚 上 ， 与 会 者 逐一 进入 宴会 厅 。 他 们 想 吃 饭 ， 但 他 们 还 想 参 加 
有 趣 的 交谈 。 为 此 ， 他 们 想 坐 一 张 已 经 有 很 多 人 坐 的 餐 果 ,但 他 们 也 想 坐 到 旁边 有 类 似 研 
究 兴 趣 的 人 的 餐 果 。 如 果 他 们 没有 看 到 这 样 的 餐 遇 ， 则 他 们 开始 一 个 新 餐桌 并 期 待 进来 的 
类 似 与 会 者 找到 并 加 入 他 们 。 

假设 实例 /与 会 者 +t 用 一 个 4 维 向 量 x' 表 示 ， 并 且 假 设 这 种 x' 是 局 部 高 斯 分 布 。 这 在 
整个 空间 /宴会 厅 定 义 了 一 个 混合 高 斯 分 布 。 为 了 使 它 是 贝 叶 斯 分 布 ， 像 在 16.7 节 中 讨论 
的 那样 ， 我 们 在 高 斯 分 文 的 参数 上 和 定义 先 验 。 为 了 使 它 是 非 参 数 的 ， 我 们 定义 一 个 狄 利 克 
雷 过 程 作 为 先 验 ， 因 此 可 以 在 必要 时 添加 新 分 支 ， 过 程 如 下 


BM Pi ge ==: 1) ce 





Ex bx 1Xi) (i 二 1,…,k) 加 入 分 支 ; 


B Pz)0c 





m ome 7 P62") 开始 一 T 3S X 


Xi 是 以 前 指派 到 分 支 i 的 实例 的 集合 。 使 用 它们 的 数据 和 先 验 ， 可 以 计算 后 验 并 在 其 上 积 
分 ， 可 以 计算 pOX 1X;)。 粗 略 地 说 ， 如 果 分 支 i 中 已 经 有 许多 实例 ( 即 由 于 高 的 先 验 )， 或 
者 新 实例 x 类 似 于 已 在 Xi; 中 的 实例 ， 则 这 个 新 实例 被 指派 到 分 支 i 的 概率 将 会 较 高 。 如 果 
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现 有 的 分 支 都 不 具有 高 概率 ， 增 加 一 个 新 分 支 : p(x') 是 边缘 概率 (在 分 支 参 数 的 先 验 上 积 
分 ， 因 为 没有 数据 )。 

不 同 的 a 可 能 导致 不 同 的 簇 个 数 。 为 了 调整 4a， 可 以 使 用 经 验 贝 叶 斯 ， 也 可 以 在 其 上 
定义 先 验 并 对 它 取 平 均 。 

在 第 7 章 中 ， 当 我 们 谈论 & 均 值 聚 类 时 (参见 7. 3 节 )， 讨 论 了 领导 者 聚 类 算法 ， 该 算 
法 在 训练 期 间 添 加 新 的 簇 。 作 为 它 的 一 个 例子 ,在 12. 2.2 节 中 ， 我 们 讨论 了 自 适 应 共鸣 
理论 ， 该 理论 表明 如 果 新 实例 到 最 近 艇 中心 的 距离 大 于 和 警戒 值 ， 则 添加 一 个 新 的 簇 。 我 们 
在 这 里 做 的 非常 类 似 : 假定 高 斯 分 支 和 对 角 协 方差 矩阵 ， 如 果 到 所 有 艇 的 欧 氏 距离 痢 太 
远 ， 则 所 有 的 后 验 都 很 小 ， 并 且 将 添加 一 个 新 的 分 文 。 


16. 11 本 征 狄 利克 雷 分 配 


让 我 们 看 看 贝 叶 斯 方法 在 文本 处 理 中 的 应 用 ， 即 主题 建 模 (topic modeling) (Blei 
2012) 。 在 这 个 时 代 ， 数 字 存 储 库 中 包含 大 量 文档 ， 如 科学 论文 、 网 页 、 电 子 邮 件 、 博 客 
等 。 但 是 ， 为 查询 找 出 有 关 主 题 是 很 困难 的 ， 除 非 手工 地 用 诸如 "艺术 ”“ 人 体育” 等 主题 为 
文档 进行 注释 。 我 们 想 做 的 是 目 动 注释 。 

假设 我 们 有 一 个 包含 M 个 词 的 词汇 表 。 每 个 文档 包含 N 个 词 ， 以 不 同 的 比例 从 大 量 
主题 中 选择 。 换 句 话说 ， 每 个 文档 都 是 主题 上 的 一 个 概率 分 布 。 例 如 ， 一 个 文档 可 以 一 部 
分 是 “艺术 ”， 一 部 分 是 “政治 ”。 相 应 地 ， 每 个 主题 定义 为 一 个 M 个 词 的 混合 分 布 ; 即 每 
个 主题 对 应 于 词 上 的 一 个 概率 分 布 。 例 如 ， 对 于 艺术 这 个 主题 ， 词 “油画 2 和 “雕塑 > 有 很 高 
的 概率 ， 但 是 词 “ 膝 盖 ” 的 概率 则 很 低 。 

在 本 征 犹 利克 雷 分 配 (latent Dirichlet al- 
location) 中 ， 定 义 一 个 生成 过 程 ( 参 见 
图 16-12) AK 个 主题 ,一 个 包含 M in] 
的 词汇 表 ， 并 且 所 有 文档 都 包含 N 个 词 
(Blei, Ng 和 Jordan 2003)。 方 法 如 下 : 

为 了 产生 每 个 文档 d. 我们 首先 决定 文 
档 的 主题 。 这 些 主 题 的 概率 mi CR= 1, tn, 
K) 定 义 了 一 个 多 项 式 分 布 ,， 并 且 由 一 个 以 & 
为 超 参 数 的 狄 利克 雷 先 验 抽取 (16. 2. 1 352; 图 16-12 本 征 狄 利克 雷 分 配 的 图 模型 

z^ ~ Dirichlet, Ca) 

一 旦 知道 文档 4 的 主题 分 布 ， 就 使 用 它 来 产生 文档 4 的 NN 个 词 。 在 产生 词 i 时 ， 首 先 
通过 从 和 中 抽样 决定 它 的 特定 主题 : 掷 一 个 具有 天 个 面 、 面 具有 概率 x 的 第 子 。 定 义 
z: 为 输出 ， 它 是 1~K 之 间 的 值 : 








z? ~ Mult, Cz?) 
现在 ， 我们 知道 在 文档 4 中 ， 第 i 个 词 将 是 关于 主题 zz<€E (1，…， 开 } 的 。 有 一 个 天 
x M 概率 和 矩 阵 W， 其 第 上 行 w, 三 [rw es wul ABER k 中 MM 个 词 出 现 的 概率 。 因 
此 ， 知 道 词 i 的 主题 应 来 自主 题 z*， 将 从 其 参数 由 W 的 第 zy 行 给 定 的 多 项 式 分 布 中 抽样 ， 
得 到 词 a2 (ESE 1—M 之 间 的 值 ): 
T? ~ Multy (w a ) 
这 是 一 个 多 项 式 抽样 ， 并 且 我 们 在 多 项 式 概率 的 这 些 行 上 定义 一 个 具有 超 参 数 甩 的 猴 
HARER: 
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w, ~ Dirichlet(p) 

这 就 完成 了 产生 一 个 词 的 过 程 。 为 了 产生 文档 的 ON 个 词 ， 我 们 将 上 述 过 程 做 N 次 ; 
即 对 于 每 个 词 ， 我 们 决定 主题 ; 然后 ， 给 定 主题 ， 我 们 选择 一 个 词 ( 图 16-12 的 内 板 )。 当 
我 们 开始 下 一 个 文档 时 ,我 们 抽取 另 一 个 主题 分 布 x( 外 板 )， 然 后 从 该 主题 分 布 抽取 N 
个 词 。 

在 所 有 的 文档 上 ， 我 们 总 是 使 用 相同 的 W， 并且 在 学 习 时 ,我们 有 一 个 大 文档 集 ， 
即 ， 只 有 zf 值 被 观察 。 我们 可 以 像 通常 一 样 写 一 个 后 验 分 布 并 学 习 所 有 文档 共享 的 主题 
的 词 概 率 W，。 

一 旦 学 习 了 W， 它 的 每 一 行 就 对 应 一 个 主题 。 通 过 观察 具有 高 概率 的 词 ， 我们 可 以 对 这 些 
主题 指定 一 些 含义 。 然 而 ， 注 意 ， 我 们 总 能 学 习 某 个 W， 行 是 否 有 意义 是 男 一 回 事 。 

我 们 刚才 讨论 的 模型 是 参数 的 ， 并 且 它 的 大 小 是 固定 的 。 我 们 可 以 通过 使 用 狄 利克 雷 
过 程 ， 必 要 时 增加 主题 数 K (隐藏 的 复杂 度 参 数 ) 使 之 成 为 非 参 数 的 。 但 是 我 们 必须 要 小 
心 。 每 个 文档 都 包含 来 自 某 些 主 题 的 N 个 词 ， 而 我 们 有 一 些 文档 ， 并 且 它 们 都 需要 共享 
相同 的 主题 集合 ; 也 就 是 说 ,我 们 需要 生成 主题 的 狄 利 克 雷 过 程 。 为 此 ， 我 们 定义 一 个 层 
次 。 我 们 定义 一 个 较 高 层 的 狄 利 殉 雷 过 程 ， 从 中 我 们 可 以 抽取 个 体 文 档 的 狄 利克 雷 。 这 是 
一 个 层次 犹 利 克 雷 过 程 (hierarchical Dirichlet process) (Teh 等 2006)， 它 允许 为 一 个 文档 
学 习 的 主题 被 所 有 文档 共享 。 


16.12 ”贝塔 过 程 和 印度 自助 餐 


现在 ， 让 我 们 看 看 贝 叶 斯 方法 在 因子 分 析 的 维度 归 约 中 的 应 用 。 记 住 ， 给 定 NX gi 
据 算 阵 X， 我 们 想 找到 & 个 特征 或 潜在 因子 ， 它 们 每 个 都 是 & 维 的 ， 使 得 数据 可 以 表示 成 
它们 的 线性 组 合 。 也 就 是 说 ,我 们 要 找到 Z 和 A 使 得 
X — ZA 
其 中 ，A 是 kXd EE, CHE j 行 是 d 维特 征 向 量 ( 类 似 于 PCAC. 3 节 ) 中 的 特征 向 量 )， 
而 Z 是 N Xk 矩阵， 它 的 第 1 行将 实例 t 定义 为 特征 的 向 量 。 
我 们 假定 z 是 二 元 的 ， 并 且 是 以 概率 从 伯 努 利 分布 抽 取 的 : 
， [1 概率 为 py 
z; 一 0 概率 为 1 一 (16-50) 
XXFÉ. zj 指示 构建 实例 上 时 隐藏 因子 7 的 缺失 或 出 现 。 如 果 对 应 的 因子 出 现 ， 则 4 的 
"Bj 行 被 选中 ， 并 且 所 有 被 选中 行 的 和 构成 天 的 第 上 行 。 
我 们 现在 是 讨论 贝 叶 斯 ， 因 此 我 们 定义 先 验 。 我 们 在 A 上 定义 一 个 高 斯 先 验 ， 在 伯 努 
All zi BJ p; ExE X —^r WS E a Ee : 
pj ~ betaCa,1) (16-51) 
其 中 a EESK. RIA ULT Hwee A. SRA 的 行 ， 我 们 可 以 明白 隐藏 因子 
代表 什么 。 例 如 ， 如 果 上 有 很 小 (例如 ,= 二 2)， 则 我 们 可 以 绘图 并 观察 数据 。 
我 们 假定 某 个 k， 因 此 该 模型 是 参数 的 。 我 们 可 以 把 它 变 成 非 参 数 的 ， 并 允许 & BEC 
据 增 加 而 增加 (Griffiths 和 Ghahrabetamani 2011)。 这 定义 了 一 个 贝塔 过 程 (beta process), 
而 对 应 的 隐喻 称 为 印度 自助 餐 过 程 (Indian buffet process)， 它 定义 了 一 个 生成 模型 ， 过 程 
如 下 。 
有 一 个 印度 餐馆 ， 它 提供 包括 & 种 菜肴 的 目 助 餐 ， 而 每 位 顾客 都 可 以 取 一 份 由 这 些 莱 
看 的 任意 子 集 组 成 的 食物 。 第 一 个 顾客 (实例 ) 进 入 并 取 前 头 道 菜 。 我 们 假设 m 是 一 个 随 


482 


483 


484 


278 $163* 


机 变量 ， 由 参数 为 a 的 泊 松 分 布 产生 。 然 后 ， 每 个 后 来 的 顾客 n 都 能 以 概率 nj/n BUE SEHR 
AWA j. KP nj 是 之 前 取 过 菜肴 j 的 顾客 数 。 一 旦 他 在 现 有 的 菜肴 中 完成 抽样 ， 该 顾 
客 还 可 以 为 外 要 求 Poisson(a/n) 种 新 菜 厦 ， 因 此 模型 增长 。 当 应 用 于 前 面 的 潜在 因子 模型 
时 ， 这 对 应 于 因子 数 不 必 固定 而 是 随 着 数据 中 国有 的 复杂 度 增加 而 增长 的 模型 。 


16. 13 注释 


贝 叶 斯 方法 近来 日 趋 流行 。 生 成 图 模型 的 使 用 对 应 于 贝 叶 斯 形式 化 机 制 ， 并 且 从 自然 
语言 处 理 到 计算 机 视觉 再 到 生物 信息 学 ， 在 各 个 领域 中 我 们 都 看 到 了 一 些 有 趣 的 应 用 。 

贝 叶 斯 非 参 数 建 模 的 新 领域 也 很 有 趣 ， 因 为 现在 适应 模型 复杂 度 是 训练 的 一 部 分 ， 而 
不 是 模型 复杂 度 调 整 的 外 循环 。 我 们 期 望 在 不 久 的 将 来 看 到 沿 着 这 个 方向 的 更 多 工作 。 这 
方面 的 一 个 例子 是 无 限 隐 马尔 可 夫 模 型 (Beal，Ghahramani 和 Rasmussen 2002) ， 该 模型 
隐藏 状态 的 数量 随 着 更 多 的 数据 自动 调整 。 

由 于 篇 幅 限 制 和 需要 保持 本 章 具 有 合理 长 度 ， 近 似 和 抽样 方法 未 在 这 一 章 中 详细 讨 
论 。 关 于 变 分 方法 和 马尔 可 夫 链 蒙特 卡 罗 抽 样 的 更 多 信息 ， 见 MacKay 2003, Bishop 
2006; 或 Murphy 2012, 

贝 叶 斯 方法 是 有 趣 的 和 有 前 途 的 ， 并 且 已 在 许多 情况 下 获得 成 功 ， 但 是 它 远 未 完全 取 
代 非 贝 叶 斯 或 频率 论 方法 。 为 了 易于 处 理 ， 生 成 模型 可 以 很 简单 。 例 如 ， 本 征 狄 利克 雷 分 
析 失 去 了 词 序 。 近 似 方法 可 能 很 难 获得 ， 而 抽样 方法 收敛 很 慢 。 于 是 ， 频 率 论 的 捷 近 ( 例 
如 ， 经 验 贝 叶 斯 ) 在 某 些 情况 下 可 能 成 为 首选 。 因 此 ， 最 好 是 在 这 两 者 之 间 寻 找 一 个 理想 
的 妥协 ， 而 不 是 完全 致力 于 一 个 。 


16.14 习题 


1. 对 于 图 16-3 的 情况 ， 观 察 后 验 如 何 随 N. o 和 os 变化 。 

2. 设 工 表示 从 个 随机 样本 中 接收 的 垃圾 邮件 数 。 假 定 垃 圾 邮件 所 占 的 比例 q 的 先 验 是 
[0，1] 中 的 均匀 分 布 。 找 出 后 验 分 布 p(g|x)。 

3. 如 上 ， 但 假定 p(gq) 一 和 (jo。，oo*)。 还 假定 n 很 大 ， 使 得 我 们 可 以 使 用 中 心 极限 定理 ， 
并 用 高 斯 近似 二 元 分 布 。 推 导 plr). 

4. 在 使 用 最 大 似 然 估计 时 ，Var(r ) 是 什么 ? 将 它 与 式 (16-25) 比 较 。 

5. 在 图 16-10 中 ， 当 改变 时 ， 拟 合 如 何 变化 ? 

f: 与 通常 一 样 ，s 是 光滑 参数 ， 并 且 随 着 s 的 增加 ， 我 们 得 到 更 光滑 的 拟 合 。 

6. 提出 一 种 过 滤 算 法 ， 在 高 斯 过 程 中 选择 训练 集 的 子 集 。 

f. 高 斯 过 程 的 一 个 很 好 的 性 质 是 ， 可 以 计算 某 一 个 点 上 的 方差 。 对 于 训练 集中 的 任 
何 实 例 ， 可 以 在 那里 计算 留 一 估计 ， 检 查实 际 输出 是 否 在 (例如 ， 百 分 之 95) 预 测 区 间 内 。 如 
果 是 ， 这 意味 着 不 需要 这 个 实例 ， 可 以 去 掉 它 。 那 些 不 能 被 剪 掉 的 实例 ， 就 像 核 机 器 的 支持 
向 量 ， 就 是 那些 被 保留 和 需要 的 实例 ， 以 便 限制 拟 合 的 总 误差 。 

7. 在 主动 学 习 (active learning), 学 习 程 序 在 学 习 期 间 能 够 逐一 产生 x、 并 请 求 监督 者 
提供 对 应 的 r 值 ， 而 不 是 被 动 地 接受 一 个 训练 集 。 如 何 用 高 斯 过 程 实现 主动 学 习 ?( 提 
AN: 何 处 具有 最 大 的 不 确定 性 ?) 

fe: 这 就 与 上 一 题 一 样 ， 只 是 增加 替代 了 修剪 。 使 用 同样 的 逻辑 ， 可 以 看 到 需要 
预测 区 间 大 的 实例 。 给 定 方 差 为 x 的 函数 ,我 们 寻找 它 的 局 部 极 大 值 。 在 高 斯 核 的 情 
况 下 ， 我 们 预料 远离 训练 数据 的 点 具有 高 的 方差 .但 不 必 对 所 有 的 核 都 如 此 。 搜 索 时 ， 
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我 们 需要 确保 我 们 不 越过 输入 的 有 效 边界 。 
8. 假定 我 们 有 一 个 文档 集 ， 其 中 对 于 每 个 文档 ,我们 有 一 个 英文 拷贝 和 一 个 法 文 找 贝 。 
如 何 对 这 种 情况 扩展 本 征 犹 利克 雷 分 配 ? 
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